首页 > 代码库 > 联合国“全球脉动”计划 《大数据开发:机遇与挑战》
联合国“全球脉动”计划 《大数据开发:机遇与挑战》
联合国“全球脉动”计划发布
《大数据开发:机遇与挑战》
2012 年 5 月 29 日,联合国“全球脉动”( Global Pulse)计划发布《大
数据开发:机遇与挑战》报告,阐述了各国特别是发展中国家在运用大数
据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出
了策略建议。
1. 引言
技术创新和数字设备的普及带来了“数据的产业革命”。对日益扩大的
数字数据的分析将揭示关于集体行为的潜在联系,并有可能改进决策方式。
大数据的开发,关键在于将不完善的、复杂的数据转换成可操作的信息,
这要利用先进的计算工具揭示大型数据集合内部及之间的尚未被发现的
趋势和相关性。这些方法的应用带来了很大期望,也引发了很多问题。
随着大数据发展战略得到世界各国的高度重视,联合国秘书长执行办
公室于 2009 年正式启动了“全球脉动”( Global Pulse)倡议项目,旨在推
动数字数据快速收集和分析方式的创新。 作为该项目的研究成果,由“全球
脉动”资深发展经济学家艾玛纽尔?勒图( Emmanuel Letouzé)牵头撰写了
《大数据开发:挑战与机遇》。报告并不期望能覆盖所有的挑战,也难以
提供解决挑战的明确答案,但是可以作为对未来进一步反思和探讨的参考。
2. 机遇
1)数据革命
世界正在经历一场数据革命。在上一代,相对小体积的模拟数据是通
过有限的渠道生成和获取的,今天, 大量的数据通常通过不同的渠道、从
不同的来源生成和流动,数字时代随时都在发生。一方面是数据发射和传
播速度和频率的增加,另一方面是它散发的各种来源的增加,两者共同构
成了“数据洪流”。在全球范围内可用的数字数据数量从 2005 年的 150EB
增加至 2010 年的 1,200EB。预计在未来几年,数据总量每年将增长 40%,
这一增长率意味着数字数据的存储预计将在 2007 年和 2020 年之间增长 44
倍。
大数据开发来源通常都具有以下一些特点:
( 1)数字化生成。例如,数据是通过数字化创建而成,并且能够通
过使用一系列的 1 和 0 进行存储,进而可以通过计算机进行操纵。
( 2)被动生成。通过人们日常生活的产品或者与数字化服务交互生
成。
( 3)自动化收集。例如,存在一个系统能够提取和存储其正在生成
的相关数据。
( 4)在地理上或暂时性可跟踪化。例如,移动手机定位数据。
( 5)持续分析。例如,信息与人类健康和发展相关,并且可以进行
实时分析。
2)与发展中国家的关系
数据革命不仅在工业化国家发生,在发展中国家也同样发生,且趋势
越来越明显。 2010 年, 世界各地有超过 50 亿部手机在使用, 其中超过 80%
在发展中国家。在发展中国家,移动电话不仅用来实现个人之间的通信,
也非常普遍地用来转账、求职、购买和销售商品、传输数据,移动服务的
发展和应用已经超过了传统情况。
北美、西欧及日本的互联网流量在 2011 至 2015 年间增幅预计为
25%~30%,而拉美、中东和亚洲预计将超过 50%,其中大部分来自移动设
备。广播节目、信息热线和信息亭也有显著发展,例如“问答盒”( Question
Box)或者联合国基金会的“数字鼓”( Digital Drum)项目,方便偏远地区
的人们搜索有关农业、健康、教育、 贸易、娱乐等方面的信息。
社会媒体的利用也在快速发展。跟踪在线新闻或者社会媒体的趋势可
以获得与全球发展密切相关的区域信息。 此外,参与指标收集的联合国机
构和其他为弱势群体提供服务的组织是另一个有发展前景的实时数据源。
3)增长波动时代应用大数据的目的
目前,一种非常普遍的看法是,世界正变得越来越不稳定,弱势群体
遭遇严重困难的风险正在增加。价格、就业和资本流动的波动出现已久,
过去几年的全球经济体系也正变得越来越容易产生动荡。
过去五年里,随着 2007—2008 年的食品和燃料危机以及 2008 年开始
的经济大衰退,一连串的危机出现。到 2011 年下半年,世界经济进入了
另一个混乱时期,非洲之角出现饥荒, 欧洲和美国出现金融危机。按照经
合组织的说法,世界经济受到的冲击将越来越频繁,并会导致更大的经济
和社会困难。由于世界经济的互联互通, 经济外溢引起的事件(如金融危
机)将迅速发展。对于这种相互关联,局部的影响可能不是立即可见或可
跟踪的,但可能是严重和持久的。这些过程往往不会引起传统监控系统的
注意,很难判断哪些地方、什么时间、 哪些群体会受到多严重的影响。当
确凿的证据出现在报纸头条或决策者的案头时,通常已经太迟了,需要花
费昂贵的代价去补救。
政策制定者已经越来越认识到这些不断发展的危机带来了昂贵的代
价,并知道预防损失的发生或将损失控制在最小显然比损失发生后再挽救
要更容易、代价更小。调查数据会提供重要的信息,然而这些数据需要花
费时间去收集、处理、核实和公开。官方统计资料和调查数据等传统数据
会继续产生适用的信息,但是数据革命为人们得到更有效、更深刻的观察
提供了绝佳的机会。
同时,私营部门成功利用大数据分析的案例展示了实时数据应用的前
景。世界经济论坛、麦肯锡、《纽约时报》等重要协会、机构和媒体也在
促进“大数据驱动的决策”。民间社会组织也表明它们渴望用更灵活的方式
利用实时数据。由此,各国政府都逐渐意识到大数据的作用和能力。一些
政府通过支持开放数据等举措,以提高公共服务能力。
在全球经济持续波动的时代,对海量数据以及更迅速、更有效的信息
进行利用已经得到了双重认可。除了原始数据本身和利用它的目的,也需
要有效理解数据和使用数据的能力。
3. 挑战
1)数据
( 1)隐私
受概念、法律和技术的影响,隐私是最为敏感的问题,但隐私可能会
因新技术的兴起而受到影响,因此需要有必要的保障措施。
隐私可能在许多情况下被泄露。例如,人们通过简单勾选一个选项,
同意采集和使用网络产生的数据,但并没有完全意识到这些数据如何被使
用或滥用。人们也不清楚,是否博客和微博用户同意对他们的数据进行分
析。
( 2)访问和共享
尽管大部分公开可获取的在线数据具备开发的潜在价值,但是企业掌
握着更多有价值的数据。私人企业和其他机构并不愿意共享这些数据以及
自身业务的数据。原因主要包括法律或名誉上的考虑,保护自身竞争力、
保密文化等。从公共或私人部门获取非公开数据,需要特定的法律以确保
能以可靠的机制访问数据集,备份数据只用于回顾分析和数据培训。此外
还有数据内部可比性和系统互操作性的技术挑战,但相比围绕数据许可问
题上的正式访问或协议处理问题要简单得多。
大数据的发展存在一些非常严重甚至具有破坏性的挑战。任何在该领
域的倡议都应该充分注意隐私问题和处理数据的方式,以确保隐私不受损
害。应当以建设性的方式,围绕数据隐私方面的争议,制定强有力的原则
和严格的规则,提供足够的工具和系统支撑,以确保隐私安全。与此同时,
如果机构(主要是私人部门)拒绝共享数据,这个承诺将无法实现。为了
强调这个必要性, “全球脉动”项目提出“数据慈善事业”的概念,即企业主
动以匿名方式向改革者提供数据集(去掉所有个人信息),以便从数据里
挖掘出深刻的观点、模式和趋势性的数据。
2)分析
利用新的数据源带来了大量的分析挑战。 这些挑战的相关性和严重程
度将取决于这一正在进行的分析类型, 以及最终确定的数据类型。 “数据真
正告诉我们什么? ” 这一问题是任何社会科学研究和基于证据决策研究的
核心,有一种普遍的共识认为“新”的数字数据提出了更为具体和严峻的挑
战。因此,通过简单易懂的方式将挑战描述出来是十分必要的。为了使理
解更清晰,可将其分为三种不同的类别:
( 1)形成直接图形,即总结数据;
( 2)通过推断更好地理解数据;
( 3)定义和检测异常。
4. 应用
1)新数据流带来的变化
( 1)了解你的数据
无论是大数据坚定拥护者还是怀疑论者对大数据都有一个基本误解,
那就是大数据可以解决所有问题。 数据就是数据, 它有自身的缺点和价值。
需要开发的大数据肯定不是完美的数据,只有当其被正确地理解和分析,
其价值才是巨大的。
新的数据流肯定是有缺陷的——特别是数据的可靠性、准确性和典型
性,但是如果充分理解这些数据,就不会造成严重后果。可能需要设计内
部策略来确认所获得的或者选择报告的信息的准确性。同时,还要考虑到
并非所有用户生成的数据内容都有价值。
只有当限制和偏见被充分理解、根本特性被充分利用时,大数据才能
最有效地促进发展。对利用大数据信息源的任何挑战进行评估时,不能脱
离信息的预期使用目的。这些新的、 数字数据来源可能不是非常适合于严
谨的科学分析,但对许多极大影响发展结果的应用,它们具有巨大潜能。
( 2)大数据开发的应用
一个备受争议的途径是在大型数据集中找到相关性和数据特性。
在积极寻找大数据相关性的同时,必须确定核查过大数据没有被误解
和滥用。 在某些情况下, 新的数据源可以作为更便宜和更便捷的替代指标,
反映出官方统计结果。
除了相关性,分析大量的数据能帮助发现程式化事实,例如明显反复
出现的行为和模式。程式化事实不应该像法律一样被认为总是真理,但它
们会给出一种可能性,即某种趋势上的偏差可能会发生。因此,它们成为
异常检测的基础。例如,国际粮食政策研究所(IFPRI)的研究人员开发了一
种方法来探测食物价格的异常波动性, 用于确定特定国家的食品安全反应
水平。类似的方法可以应用于检测社区成员使用手机、出售家畜的异常情
况。
访问大型实时数据源能帮助拯救生命。 美国地质调查局已经开发出监
视微博的系统来收集有关地震的消息。 位置信息被提取并传递给美国地质
调查局的地震学家们,用来证实地震发生、 定位震中并量化级别。哈佛大
学的研究人员和麻省理工学院共同开展的关于 2010 年海地霍乱疫情可追
溯的分析证明,挖掘微博和在线新闻报道能够在两周内为卫生官员提供一
个高度精确的疾病扩散的指示。
经过正确分析的大数据提供了一种理解人类行为的机会,可以通过三
种方式支持全球的发展:
● 预警:早期发现异常现象,并在危急时刻教人们如何使用数码设备
和服务快速响应;
● 实时意识:大数据可以描绘一副细粒度和反映当前实际的图像,以
帮助确定项目和政策的定位;
● 实时反馈:实时监测人口的能力, 使之了解哪些政策和项目是失败
的,并做出必要的调整。
2)以大数据促进发展
( 1)语境化是关键
迄今为止所提出的例子和讨论都强调了语境化的重要性,包括两种方
式:
数据内容:不应孤立地解释指标。如果某指标表现异常,除非它发生
第二次、第三次甚至更多次,那么它未必能反映出事实和趋势。
文化背景:了解在一个国家或地区的正常情况是识别异常的先决条件。
世界各地不同的文化习俗差异必然延伸到数字世界,因此在使用大数据时
有一个深刻的人群(民族)维度。不同的人群以不同的方式使用服务,并
在如何公开交流他们的生活方面有不同的规范。
( 2)成为先进信息的使用者
从信息分类的选择,到在适当的时机解释结果,分析师在各个阶段都
起到关键的作用。首先,需要依靠各种信息来源,用挑剔的眼光进行评估。
遵守相关的指导原则将使与发展有关的大数据实现其最终目标:帮助
决策者和发展实践者对弱势群体获得更丰富和及时的见解,并实现更好地
了解和更加灵活的干预。
5. 关于大数据的开发
大数据技术是类似纳米技术和量子计算的一个翻天覆地的变化,将塑
造一个新的二十一世纪。一些专家认为,通过大量数据的挖掘,科学将向
新的方法论范式推进,这将超越理论和实验之间的界限。其他观点认为这
一新的能力能够作为“科学的第四范式”( fourth paradigm of science)由大
型数据集合揭示程式化的事实。
报告并不认为,大数据将取代支撑工作的各种方法、工具和系统。但
大数据确实带来了历史性机遇,让人们能够深入理解数字化信息,提升支
持和保护人类社会的公共能力。
如果想知道随着大数据的应用不断扩展,多少工作将会在 5 到 10 年
间受到影响,答案并不简单, 因为大数据对发展工作的影响是介于显著和
根本之间的,很难判断这些影响的确切性质和强度有多大。这首先因为人
们在未来十年将产生的新的数据类型是未知的;二是因为计算能力也同样
不确定;三是因为这将取决于未来由无数人——主要是决策制定者所做出
的战略决策。但是可以肯定的是, 大数据必将因其巨大潜力而实现更大利
益。大数据的成功取决于两个主要因素。一是来自政府的政策和财政支持
水平,以及私营机构和学术团队与政府合作的意愿,包括分享数据、技术
和分析工具。二是制定和完善新的规则,以及通过新的机制结构和伙伴关
系来保障大家能负责任地使用大数据。
刘 晓 徐 婧 检索 刘 晓 编译自
http://www.unglobalpulse.org/sites/default/files/BigDataforDevelopment-UNGlobalPulseJune201
2.pdf
联合国“全球脉动”计划 《大数据开发:机遇与挑战》