首页 > 代码库 > 大数据的红与黑
大数据的红与黑
世界正在步入IT革命和全球化的第二乐章—“云时代”。通过互联网,数据中心的巨大计算和存储功能像云彩般覆盖世界的每一个角落。今天,无论是企业还是个人都可以超越国境便利和自由地利用高性能的云计算系统,人类的生活、工作和创业环境骤然剧变。
—《步入云时代》,周牧之
这是一个危机四伏的世界。自2008年美国次贷危机之后,紧接着就是欧洲主权债务危机。美国和欧洲两大世界经济的领航者都在衰退的边缘徘徊,亚 洲的日本经济形势难言乐观,可怕的是,人们根本看不到走出危机的出路。金砖国家虽表现亮眼,但在全球一体化加速的情况下,却也很难独善其身。全世界似乎都 被一种悲观的情绪所笼罩。人们不禁要问,希望在哪里?
其实,每一个体系,每一种模式,虽然都是抽象的概念,但也像具体的物品一样,会耗损、退化。纵观历史,这些陈旧的生活方式和生产方式,最终都逃 脱不了被淘汰的命运。真正带来变革的总是科技的创新和发展。这就意味着,人们面对危机时,最需要的是新的发展方向和动力,而不是在老化的零件上修修补补。 正如,骑马横亘欧亚大陆耗时太长,如果眼光总在换一匹更好的马,或是让现有的马跑得更快,终究只是权益之计。人类真正需要的,其实是现如今的汽车、高铁、 飞机。而因特网出现之后,人们如果只是想说话聊天,那么连跨越大陆、海洋的必要性都没有了,因为网络让地理距离完全可以忽略不计。
现如今,最热的话题就是云计算和大数据。人们对于这一变革的期待,完全可以媲美一次工业革命。人们常常觉得科技高深莫测,离自己颇有距离,但是实际上,大数据的时代在悄然中已经渗透到我们生活的方方面面。大数据最先被应用的领域,可能是消费领域,其次是电信。电信服务商们在尝试使用大数据,以期对它们资本设备的使用进行优化。
大数据的应用前景
大数据在消费领域已经深深扎根。该领域首先使用大数据,因为大数据在这个领域的运用比较方便易行,不需要管制,而且消费者软件比其他软件的编写 也要快一些。例如,你在亚马逊上买书,亚马逊就会根据其他购书者的评价来给你推荐另外的书籍。在过去的几年里,正是消费者以及针对消费者的软件引领了大数 据产业的发展,人们自身的想法通过数据达到彼此融合。游戏公司创造各种各样的虚拟产品,利用大数据来分析消费者对虚拟产品的购买情况。举个例子,游戏公司 以人们买了多少虚拟雨伞作函数,来判断外面是不是在下雨。从这里可以看出,虚拟世界和真实世界之间有着十分有趣的联系。
运用大数据的领域可以涉及生活的方方面面。通用电气公司曾有一个产业互联网设想,其中提到,怎么连接各方,怎么从喷气发动机和汽车引擎中获取信 息,以及怎么确保这些大型产业系统运行最优化。大数据在产业这里的运用可能是更为重要。同时,这一方面的运用真的能够通过改变产品的本质和外观,最终会改 变世界。
通常来说,两个飞机引擎在飞行的过程中能产生5T的数据。如果系统能分析这些信息,并在飞行员发现引擎温度不对劲或者出现其他差错之前,就将信 息传递给飞行员,告知他引擎的运行状态,以及是否存在其他问题,那么就能让飞行安全得到进一步提高。航行当中的所有信息都能被适时告知非常的重要,它有时 候能救人一命,这在空难多发的今天,特别有意义。此外,在医疗保健领域,大数据能结合每个人不同的特性,帮助打造更优的医疗方案。
数据很多,但无用的也很多。要么是没有价值的,要么就直接是错误的。使用大数据的技术需要解决数据清理问题。取用数据的第一件事情就是要清理数 据。甚至在将数据从数据源中取出放入存储地之前,要先确认你输入的数据是有效的。有时候,你要滤去5%的数据,有时候你甚至要忽略掉95%的数据,因为数 据实在是太庞杂了。人们不应该存储你不需要的数据,那样做很浪费。现在的技术可以帮助你将一件事情分成多步,使人们可以在存储和加工前,去除许多你不需要 的数据。
许多企业都希望能跻身于大数据的变革中来。许多人认为他们需要做的,就是取用他们能获取的所有数据。这其实是不经济的,因为数据量实在太大了。 所以,需要更明确自身的需求。就像你在烘焙蛋糕一样,你可能想把各种佐料都加进去,但是你不会在里面放红辣椒,因为这和烘焙蛋糕不相关。所以,要以大数据 为基础解决问题,你就会希望去除不相关的数据,而把精力集中在那些有价值的数据上。
关于大数据有一个很有趣的地方。“大数据”这个名字来源于两个方面。一方面是源于数据繁多,也就是我们为什么称之为大数据。另一方面是源于数据的无序性。过去,计算机只能处理以一种形式输入的数据。当你输入的数据形式不对时,你要去重新调整它。大数据的本质就是能处理那些并非必要的数据。自从人们和企业开始处理非结构化的数据,他们就发明出了新的技术工具,比如说分布式计算。这些新的技术工具使得人们可以将数据以非结构化的形式储存。
因为数据繁多,你不能总是带着一台主机,或者通过一台超级计算机来浏览这些数据。你要做的是,将大问题化解成一系列的小问题,然后采用更加高效 的运算体系来一一破解这些小问题。这就是“并行运算”。事实上,如果你去一趟谷歌的数据中心,你甚至看不见一台主机,你看到的是许许多多的,和你的电脑一 样的主板。目前正在探索的领域是:将大问题拆解成小问题一一解决之后,再把结果合并在一起的能力。
现在有许多关于利用大数据的设想和大计划,但是为了实现这些,首先需要大运算。问题的关键在于,怎样才能构建一个比70年代造出的计算机还要高 效得多的运算系统呢?人们通过云计算来实现大运算。云计算使得哪怕凭借很便宜的组件,也能够集合无穷大的处理能力。人们不再需要购买一个新的主板,因为一 个数据中心或在多个数据中心的所有计算机都可以在云端为我所用。你想要多少处理能力,可以获取多少,突然之间,你要应付成千上万的硬盘和主板。当你不再需 要这些处理能力的时候,你就把它们放回原处。云中心在不停运转。确保这一运转是顺畅的就很重要,而这也是新技术的研究发展方向。
如果每个人都开始依赖这个体系,那么就需要保证具备足够的处理能力。就好比,在炎热的夏天,人们需要保证全市所有空调系统的电力供给。一旦出现 意外,导致大家都不能使用空调,则是人们都不愿意看到的结果。在计算机运作中,效用计算就是这种“供给”。公共能源企业为我们提供电力、水和其他能源,而 云计算企业为我们提供计算能力。过去,如果一家公司想要一个大型软件,就需要购买成吨的服务器。今天,人们并不需要购买那么多的服务器了,因为可以租用, 或是从运算服务的公司购买虚拟服务器。
每个人都担心网站黑客,害怕数据泄露。想象一下,如果有网络黑客攻击了北京电网,不管是出于恶作剧还是出于恐怖袭击的目的,他们都可以使得北京的电力系统陷入崩溃。
数据安全领域,实际上是一个硝烟弥漫的战场,但人们却并不一定清楚。在这个战场上,有努力保护数据安全的好人,也有黑客和企图闯入数据系统进行 破坏的坏人。道高一尺,魔高一丈,这是一个无休止的问题。科技企业要先人一步,确保所掌握的技术比想要破坏数据的黑客和软件恐怖分子领先。尽管目前存在许 多种闯入电脑系统的方式,但是在系统真正受到侵害时,人们要确保有所察觉。以前病毒是这种危害唯一的来源,但不幸的是,目前这样的来源很多。
在衡量数据遭侵害的风险和数据带来的效用孰轻孰重时,总体而言,好的方面占上风。人们要做的只是确保对数据采取保护措施了。电子银行是一个经典 的例子。这想起来其实挺可怕的,因为人们也可能闯入你的电子银行,偷走你的钱财。但是,你的生活现在能离得开电子银行吗?现在,我们考虑走回头路已经为时 过晚,我们已经做不到了。你也不希望在马路上发生车祸,但是你更不愿意放弃开车。所以,这个产业最终会创造出许许多多的产品,来确保数据不受侵害,并保证 各方面的安全。