首页 > 代码库 > “非易失性内存”嫁接“内存计算”——高速安全的大数据时代来临
“非易失性内存”嫁接“内存计算”——高速安全的大数据时代来临
“非易失性内存”嫁接“内存计算”
——高速安全的大数据时代来临
题记
数据库奠基人Jim Gray:“磁带已经死了,磁盘已经落伍,闪存成为存储,内存才是王道”。“不管磁盘是否消融,闪存都是将来的一个趋势。”
石油一直直接影响着世累经济的发展速度和发展水平,现在,信息将发挥同样的作用。《经济学人》表示:“数据和信息日益成为商业的新能源,是一种与资本、劳动力并列的新经济元素”。
数据保护
大数据时代的机遇和挑战
大数据“风华正茂”
大数据时代,每两天的数据量就达到2ZB,相当于20世纪前人类文明所有数据量。
除了人类所产生数据外,机器产生的数据也在逐年递增。一定规模的公司有关消费者用户的数据已达到200T,在社交网络流行的背景下,社会化媒体产生的数据如洪水般泛滥。 当前存在的90%数据来自于过去的两年间,这些数据来自物联网传感器、交易日志、音频、视频和图像、社交媒体等。
到2020年,全球数据量将会扩大50倍。这些数据只有20%是结构化的数据,而80%以上是非结构化数据,结构化的数据可用已有的关系型数据库处理,非结构化的数据就需要依赖于新的技术。大数据通常是指大量的非结构化数据。
对于企业来说,如果管理得当,就能从大数据中挖掘出有效的信息,大部分企业还没有使用正确的工具和流程来管理这些非结构化数据。长此以往,就会远远落于人后,因为他们无法获取洞察力,不能帮助企业做出明智的决定。而硅谷的新宠如谷歌、Facebook等则是驾驭数据的大师,他们获得了成功。
大数据的价值正逐渐被人们所认知,许多决策依据转向了数据。让数据“说话”,已经成为这个时代最重要的IT命题之一。人们从体系结构、编程模型、算法设计、并行处理、存储机制等方面进行研究和实践表明,大数据时代面临诸多挑战,因为大数据在规模、增长、分布、处理等方面具有更多复杂的特征。
这些复杂的特征被总结为4V的挑战:
规模(volume),数据量越来越大,从万亿字节(TB)级到千万亿字节(PB)级甚至到十万亿亿字节(ZB)级别;
种类(variety),数据种类繁多,既包括传统的结构化数据又包括诸如文本、视频、图片和音频等非结构化数据,而且非结构化数据的比重在快速增加;
价值(value),数据价值密度低,难以进行预测分析、运营智能、决策支持等计算;
速度(velocity),大数据处理的速度问题愈发突出,时效性难以保证。
总体来看,大数据处理的挑战实质上是由信息化设施的处理能力与数据处理的问题规模之间的矛盾引起的。大数据所表现出的增量速度快、时间局部性低等特点,客观上加剧了矛盾的演化,使得以计算为中心的传统模式面临着内存容量有限、输入/输出(I/O)压力大、缓存命中率低、数据处理的总体性能低等诸多挑战,难以取得性能、能耗与成本的最佳平衡,使得目前的计算机系统无法处理PB级以上的大数据。
内存计算改变“游戏规则”
每天,数以千万计的智能设备、传感器、无时无刻的向后台系统传输着数据,如何将这些实时的数据加工成为实时的信息,为企业提供实时决策的的依据?如何更好的实时优化生产、物流,帮助企业可持续性发展?内存计算技术已允许在服务器的主内存中处理超大量的实时数据,从分析和交易中提供即时的结果。
内存计算相比传统的方法的优势是:充分发挥多核的能力,可以对数据并行的处理,并且内存读取的速度成倍数加快,数据按优化的列存储方式存放在内存里面。结论是,内存计算可对大规模海量的数据做实时分析和运算,不需要事先的数据预处理和数据建模。例如,想要以任何维度去分析数据,实时建立模型,实时完成分析处理,上亿条数据可能从几天缩短为几秒钟就处理完。
传统数据库 内存数据库
磁盘读取5ms 磁盘读取5ns
历史只有一个,而未来可以有无限多的可能。所以内存计算更大的价值体现在如何在既有数据的基础上做未来分析预测上。例如,根据现在社交网络上的数据,再加上一些假设条件,去做一个预测。内存计算能根据社交网络提供的海量数据,即时看到当前的客户行为模式,进而做出模拟预测。再比如在市场活动中,用户人群的特点,消费倾向等数据一定,如何增加满意度?满意度的增加会带来多少收益?这样的预测性问题,都是内存计算分析擅长的内容。可以说,内存计算是决策者的一个有力工具。
在一个数字化的经济体里,智能电表能够追踪能源使用量,同时它也能够实时地分析几十亿个数据电,通过这种方式,能源可以得到节约,而可再生能源也能够得到使用,环境会变得更好。
就像SAP孟鼎铭所说:“深刻的根本性的变化正在发生,而这将彻底地改变企业经营的方式。企业需要更加社会化,更加体贴客户的需求,以及客户的客户的需求”。正是基于这样的需求,在大数据的时代背景下,内存计算技术应运而生。“我们能够对结构性的数据和非结构性的数据进行整合。我们有各种各样新的商业模式可以进行模拟,可以调整我们的制造结构,可以重新考虑我们的市场细分和价格战略,所有的这一切,都是在几秒钟内可以完成的,这个在以前完全是令人难以置信的。”
如果说内存计算技术出现的充分条件是大数据时代下,企业对于数据处理的高要求,那么内存价格的不断下降,就是内存计算技术得以发展的必要条件。采用内存计算,必须把大量的数据装载在内存中,对于内存的开销就会比传统的数据库解决方案要大很多。
幸运的是,IT中间件的发展仍然按照摩尔定律不断在前进,内存价格也在不断下降。因为最底层的半导体技术提升,造成软件行业的进一步变化,帮助整个产业进行更大的提升,这也是一个必然的趋势。同时相关技术的应用,也可以降低使用内存代替硬盘而提高的成本,如内存压缩技术,一个TB的数据,以20倍压缩,只需要50GB就可以,这样一来,内存成本就可以直线下降。
通过加速大数据的处理速度,会给商务活动乃至生活以从量变到质变的过程,“农夫山泉是SAP内存计算技术的第一个客户,其所有的销售数据加载在HANA里面,然后进行分析和计算。在它原来的平台之上,不可能把所有的历史数据完全加载计算。如果非要计算也可以,但分析的周期可能是以年为单位。HANA使他们有机会把所有的历史数据加载进去,短短的几秒钟之内完成所有假设的分析,按照区域、天气来进行销量的分析,这些分析在原来是不可能做到的。”
不只是对于大企业,小型企业也需要面临大数据,也需要内存计算,“在整个业界有这样一个趋势,大数据不等于大企业”,任何规模的企业都会面临到大数据的话题,“无论多大规模企业都会通过网络营销方式接触更多的客户。最基本的营销方式通过微博、论坛,媒体广告进行。比如通过微博的方式,能够产生的数据是几何级的,这个产品到底卖的好不好,消费者喜欢不喜欢,有没有提升的空间,都可以通过消费者之间的舆情监控方式来很好的获取,无论企业规模多大。”
在大数据时代,内存计算技术不只可以应用于商业领域,还可以改变我们的生活,我们国家来的人口政策、临床医学的科研,乃至民生的工程中,都要牵扯到复杂计算和运算,而内存计算技术都可以为这些行业和事业做出更大的贡献。”
内存计算已经成为主流方向。分析公司Gartner称,在2012年,10%的大型和中型组织在一些容量的数据中采取了内存计算。到2015年,这一数字将有三倍以上的增长,达到35%。“内存计算市场将在未来两年实现大幅增长,”Gartner副总裁兼分析师Massimo Pezzini说:“我们每一天都发现更多的人采用内存计算”。
非易失性内存嫁接内存计算
由于大数据是一种以数据为中心的数据密集型技术,现有的以计算为中心的技术难以满足大数据的应用需求,因此,整个IT架构的革命性重构势在必行。随着新型非易失性存储器件的出现和成本的不断走低,客观上为设计以数据为中心的大数据处理模式,即内存计算模式创造了机会。
内存计算将新型存储级内存(storage class memory, SCM)器件设计成为新内存体系的一部分,而非作为虚拟内存交换区域的外存补充,计算不仅存在于传统的内存上,也在新型存储级内存上发生。
存储级内存(SCM)需要满足以下几个条件。第一,它需要拥有内存(DRAM)那样的高速数据吞吐能力。第二,他必须是非易失性的,能够用来保存长期数据。第三,他需要是低价的,能够经受起市场考验。第四,它应该是一个非机械的固态存储装备。
超级内存是一种把内存和闪存通过超级电容有效结合起来以达到非易失性的复合记忆技术。在正常运行中,超级内存和普通DRAM内存并无二致,所有DRAM拥有的优点,超级内存都拥有,在掉电的时候,超级电容给超级内存供电数秒,超级内存迅速将内存数据转移到闪存中。当电力恢复后,超级内存又将数据从闪存里恢复到内存中。就系统而言,超级内存是一款非易失性内存,并且由于使用了普通商用内存和闪存,达到了经济实用性。这样超级内存就拥有了所有SCM的特性。
超级内存技术
采用了非易失性内存技术的内存计算将不但可以充分利用DRAM的速度优势,在异常掉电或系统崩溃时也可以不采用电池而可靠保存数据。
“非易失性内存”嫁接“内存计算”,高速安全的大数据时代已经来临,游戏规则在悄然改变。中国在半导体记忆技术上是远远落后于其他国家的。不要说新型非易失性记忆技术,就是在传统DRAM内存和闪存技术,也只看到有美国,日本,韩国和台湾的厂商。半导体记忆技术需要很多年的技术积累,不大可能一蹴而就。要想在这个技术领域突破,与其在其他玩家的屁股后面苦苦追赶,不如另辟蹊径。现在新的机遇和挑战已经出现,国内科技厂商准备好了吗!