首页 > 代码库 > 科普|《安全简史》解读1:大数据隐私

科普|《安全简史》解读1:大数据隐私

从今天开始,我们分7次解读一本新书名字叫《安全简史》副标题是“从隐私保护到量子密码”作者是杨义先教授和钮心忻教授,该书出版于17年6月,Jason拿到该书的第一版是在三天前,该书的目标是“为百姓明心,为专家见性;为安全写简史,为学科开通论”该书从对安全领域的原理和技术进行深入浅出的讲解,故事风趣幽默,通俗易懂。是比较不错的科普读物。

技术分享

一、大数据隐私


在大数据的面前,我们都是赤裸裸的百十来斤肉,你说过什么话,做过什么事,有什么爱好等等,你自己所知道的,大数据几乎都知道其中连你自己都不知道的事情,大数据也可能知道,比如说,他能发现你的许多潜意识习惯,集体照相时你喜欢站哪里等等;再进一步说,今后将要发生的事情,大数据它还是有可能知道的,比如说根据你的“饮食多,运动少”等信息,它便能推测出,你可能会“三高”,再比如说根据某地感冒药销量的增长,大数据就知道,流感即将要爆发了。大数据还能预测世界杯比赛结果、总统选举、股票的波动,物价趋势等等。


我们在惊讶大数据出众的解读和预测能力时,我们也会对其能力产生恐慌和畏惧,万一我们的隐私被泄漏了,后果将不堪设想。就在过去16年,两件事便可证明其强大到另人颤抖的破坏力。


第一件事便是韩国总统朴槿惠,本来好好地当着总统,却被来自网络的导弹击中,身败名裂,沦为阶下囚。而整个事件的导火索居然是对一位富二代进行的小小的“人肉搜索”,你看大数据隐私的威力不小吧,它引起的狂风暴雨,不亚于“太平洋对岸那轻轻一扇的蝴蝶翅膀”


第二件事便是美国总统竞选者希拉里落败,本在总统大选期间,正当她节节胜利,支持率比对方高出足足12%,胜卷在握,即将成为美国历史上首位女总统时,突然爆出“邮件门”丑闻,导致公众对其不满,直接导致其竞选失败。


从上述两件事中,我们已经知道了大数据隐私的无穷杀伤力,那么你也许会问:“那到底什么是大数据呢?”,关于大数据的定义,不同的权威机构,不同的专家有不同定义。比如国际权威咨询机构Gartner说“大数据,就是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产”,而麦肯锡给的定义又是一套说辞。作者抛开这些繁琐,费解的定义,对大数据的解释是这样的:“所谓大数据,就是许多千奇百怪的数据,被杂乱无章地堆积在了一起。比如你留在社交网站上信息和言论,比如公共摄像头所捕获到你的数据等等”

那么明白了大数据大概是怎么回事儿之后呢,你或许又会问了,那既然是杂乱无章,千奇百怪的数据,那大数据是如何将它变成有价值可用的信息呢这又涉及到一个术语叫“大数据挖掘”。你或许又会说“唉,这应该又是一个很高端很深奥很难懂的概念。”


您可别急,在作者看来,这过程没啥高端的,就垃圾处理废品回收几乎如出一辙。我们来一步一步的拆解看看:


先说工作原理,废品收购和垃圾手机,可算是“数据收集”;将废品和垃圾送往集中处理厂,算是“数据集成”;将废品和垃圾初步分类,算是“数据规约”;将废品和垃圾适当清洁和整理,算是“数据清理”:将破沙发拆成木、铁、皮等原料,算是“数据变换”;认真分析如何将这些原料卖个好价钱,算是“数据挖掘”;不断总结经验,选择并固定上下游卖家和买家,算是“,模式评估”;最后,把这些技巧整理成口居,算是“知识表示”。


咱再来看看原料结构。与大数据的异构特性一样,垃圾的分类页时多种多样的比如说:生活垃圾、建筑垃圾等等。而且垃圾和大数据一样,数量非常多,产生的速度也很快,处理起来也很困难。连最后的价值,两者也极其相似,都是越多越有价值,唯一不同的时,大数据可以多次贩卖,且一次更比一次赚钱,时间越久,价值越大。


那么通过对大数据的挖掘,我们在获得空前好处的同时,又产生了更多需要保护的“隐私”。如果从正面来说,是创造价值;从负面来说,就是泄漏隐私了!


那面对挖掘技术飞速发展的今天,我们又如何的去保护我们自己的隐私呢?


作者从两个方面提出了建议:

一是通过国家立法,通过禁止以“人肉搜索”为目的的大数据挖掘行为;增加“网名的被遗忘权”等法律条款。


二是自我保护意识的培养。

举个搞笑的例子:澡堂着火了,美女们不顾一切冲出室外,才发现自己确实赤身裸体,慌乱中赶紧捂住下身,惊呆了的看门大爷,急中生智,高叫一声:“捂脸,下面大家都一样!”于是,一场大面积、情节恶劣的隐私泄露事件,就这样被轻松化解了。回放整个事件,关键在哪里呢?对,关键就两个字:匿名


而匿名的重点主要有以下四个方面:

  • 身份匿名:让人不知道你是谁

  • 属性匿名:让别人不知道你的特征

  • 关系匿名:让别人不知道你和谁有关系

  • 位置匿名:让别人不知道你在哪


概括一下,便是在大数据之前,隐私保护的哲学是:把“私”藏起来,而我的身份可公开。今后,大数据隐私保护的哲学将变成:把“私”公开(实际上是无法不公开),而我的身份却被藏起来,即匿名。


目前主要的匿名技术包括以下三个方面:

  • 基于数据失真的匿名技术:隐藏真实意图,不断变换身份

  • 基于数据加密的匿名技术:数据的加密和解密,是安全的重要方面

  • 基于限制发布的匿名技术:对不符合规则的内容进行限制


在隐私保护方面,绝没有万能的灵丹妙药,任何手段也有其局限性,否则,科学和技术就不会前进了。

技术分享



二、恶意代码与病毒


要想把代码讲清楚,咱就得先从电脑说起,电脑是由硬件和软件两部分组成。前者决定了它的体力,后者决定了它的智力。而软件的具体表现形式,其实就是称作代码的东西,它们不过只是一些逻辑命令而已,让电脑按顺序执行操作,指令让它做什么,它就做什么。我们将做好事的代码称为善意代码,简称为代码,将做坏事的代码称为恶意代码;但从电脑的角度来看,它们都是代码,都是应该一视同仁地执行的命令。


而恶意代码“其恶无边”的理论根据便是,凡是电脑可以做的事情,即(善意)代码可做的善事,都可以由恶意代码转换成恶事,比如叫“震网”的那几行恶意代码,就无声无息地讲伊朗的核设施给搞瘫了,上千台离心机运行失控,数以万计的终端呗感染,监控录像被篡改... ...


编写善意代码很难,但是编写恶意代码会比较容易些,因为善意代码的目标是要把某些工作做成,而恶意代码则是要把这些工作搞砸,便如古话所说,败事容易,成事难。


恶意代码有着天然的劣势便是:一方面,目标系统的已有代码不会主动配合。另一方面,即使是恶意代码已经被成功植入目标系统,操作代码的用户,也不会主动去点击明知有害的按钮。


为了克服起天生劣势,黑客必须花大力气,做下面两件事:

其一,让被攻击的对象代码,配合恶意代码来攻击自己

这猛的听起来好像天方夜谭一半,但现实中就常常发生,究其原因有以下三点

  • 冗长的(善意)代码肯定是人编写的,是人就一定会犯错误。

  • 编写(善意)代码的目的是“把事情做成”,而不是“刚好把事情做成”,所以难免会有“余热”被利用。

  • 在电脑看来,代码无善恶之分,它只遵令而行。


其二,将恶意代码植入目标系统,并按时启动“爆炸”按钮

当某些条件被触发时,相应的恶意代码便会启动“爆炸”,对目标系统进行破坏。


下面我们再来介绍一下,恶意代码的祖师爷——计算机病毒


它虽然不是生物病毒,但在行为特征方面,与其同名恶友相比,有过之而无不及。比如传播性、隐蔽性、感染性、潜伏行、可激发行、表现行等破坏性一个也不少,还能自我繁殖、互相传染和激活再生等。它能想寄生虫那样,把自己附着在各种类型的文件上,当稳健被复制火灾网上传播时,病毒也就随同文件一起快速蔓延。由于其独特的复制能力,而且很难从正常文件中将其切割,所以病毒对资源的消耗和破坏能力很强,并且不易根除。


按病毒的感染策略,病毒可分为两个分支:

  1. 非常驻型病毒,它有侦察尖兵和主力部队组成。一旦摸清了敌情,病毒们便一哄而上,有的感染文件,有的繁衍自身,有的赶紧作业,然后撤退。

  2. 常驻型病毒,它隐藏在受害者的“体内”。一旦时机成熟,比如,当操作系统运行了某个特定的动作时,病毒便会出发,不断分裂,不断复制自身,不断感染并消耗系统资源。


一般病毒的衍生又有很多,比如以下两种


  1. 蠕虫病毒是能够独立作战的“自包含程序”,它能将其自身功能的全部或部分,传染到网上的其他终端。与一般病毒不同,蠕虫不需要寄生货宿主代码上,就能开始干坏事。

  2. 木马,也称木马病毒。它通过特定程序(木马)程序来控制另一台计算机,因此又有点像是一个主人(控制端),远远地前者一匹马(被控制端),木马与一般病毒不同,它不会自我繁殖,也并不可以感染其他文件,相反,它却要躲着伪装自己,等待黑客发布控制指令。


技术分享


我的评论:

当我们一方面享受着大数据带给我们前所未有的便利和益处时,我们的隐私也在经受着前所未有的挑战和风险。王阳明的心学有四决:无善无恶心之体,有善有恶意之动;知善知恶是良知,为善去恶是格物。 希望在大数据技术飞跃的同时,人们的心念也能有所进步,向格物更进一步。但再格物之前,我们都需要进一步的分辨什么是“善”,什么是“恶”。


本文出自 “13058285” 博客,请务必保留此出处http://13068285.blog.51cto.com/13058285/1943161

科普|《安全简史》解读1:大数据隐私