首页 > 代码库 > 大数据独角兽Palantir之核心技术探秘
大数据独角兽Palantir之核心技术探秘
Palantir源起
B2B大数据
企业级Google
▼
Palantir(中文名帕兰提尔,源于《指环王》中可穿越时空、洞悉世间一切的水晶球Palantír)被誉为硅谷最神秘的大数据独角兽企业,短短几年内跻身百亿俱乐部,成为全球估值排名第四的初创公司。它的主要客户只在美剧和好莱坞里出现,如美国联邦调查局(FBI)、美国中央情报局(CIA)、美国国家安全局(NSA)、美国军队和各级反恐机构,当然还有如JPMorgan这样的华尔街金融大鳄等等。关于Palantir的传奇故事很多,CIA通过他家的大数据技术追踪到本拉登;创始人Alex Karp师从德国的Jürgen Habermas(研究西方马克思主义)获得哲学博士,热衷中国气功和太极;帮多家银行揭露旁氏骗局挽回数十亿损失,帮助摩根大通解决欺诈交易和黑客攻击问题,每年节约数亿美元;公司创始人和投资人(号称“硅谷黑帮”)由海军陆战队员随时保护以防不测;产品只卖美国及其盟友国;与棱镜门有说不清楚的关系等…这些花边新闻不是本文的关注点,本文重点从大数据技术角度来揭密Palantir的B2B大数据王国。
如果说谷歌是互联网大数据的霸主(我在前文《从Tensorflow看谷歌的云端人工智能战略》有详细解读),那么Palantir的目标就是未来企业级大数据霸主,做企业和政府领域的Google。为什么这样讲?从技术角度来分析,这是大数据发展的必然趋势,互联网上的数据多半是UGC用户产生内容,或是如电商平台这种某细分领域的独立生态数据,而真正的大数据金矿还在众多大型企业和政府机构的服务器集群中沉睡。比如一个国家的情报部门和各部、各局信息中心,无不是掌握着成千上万关键领域的大数据,包括各种业务数据、监控数据、DNA样本、语音视频图片、地图时空数据等(当然前提是信息化程度及其发达,就像我们的税务系统一样,而不是房产登记系统),面对如此海量、多源、异构而且高关联性、复杂性、动态性大数据,如果没有快速的大数据分析技术和工具支持,那只能是望数兴叹。而Palantir的大数据技术和产品就是专门针对大型企业和政府机构需求而生(与互联网公司的大数据技术有较大不同),其官方主页上的自我定位也很准确:“Palantir’s mission is to solve the most important problems for the world’s most important institutions.”。企业级大数据玩家当然政府和金融是最具数权的两个领域,所以Palantir研发的平台级大数据产品只有两个版本:Palantir Gotham(服务政府事务,警务、军队、各级军事安全客户)和Palantir Metropolis(服务金融、法律及其它客户)。如果说谷歌、亚马逊、Facebook等互联网巨头整合的是B2C大数据,那么Palantir整合的就是B2B大数据,多数企业和政府机构对大数据的应用还处于起步和探索阶段,互联网下或关键领域内网、专网中结合私有云技术的B2B大数据分析是大数据时代发展的必然,而且应用潜力和价值更为巨大,谷歌旗下DeepMind公司开始跟大型医院和卫生部门合作就是最好的注解,互联网巨头以其已有的大数据技术优势,其业务触角正在向传统行业延伸。
图1. Palantir官方主页的服务宗旨
Palantir产品技术体系
军事、金融和警务
大数据案例分析
▼
网上有个段子,虽然真假不能确认,但却能从中看出Palantir的发迹史:“美国911之后,CIA等部门忙于调查各种线索。Stanford的几个教授以公开的海量信息为输入,利用大数据处理技术建立关于人物关系的网络,最后锁定了一批疑似人,并迅速将结果发布出去,使得CIA等部门大为震惊,因为教授们的结果与CIA花人力物力大量侦查和审讯的结果很近似,让CIA们误以为教授们有牵连,迅速飞到Stanford找教授们问话。从此,“人脑+电脑“来分析复杂问题并辅助反恐成为可能”,Palantir正是在这一大背景下诞生和发迹的。目前Palantir有两大核心产品,Palantir Gotham和Palantir Metropolis,前者主要服务于国防安全和政府管理领域,后者主要服务于金融领域。两大产品体系下辖十多种解决方案,如反欺诈(Anti Fraud)、网络安全(Cyber Security)、国防安全(Defense)、内部威胁(Insider Threat)、危机应对(Crisis Response)、保险分析(Insurance Analytics)、案例管理(Case Management)、疾病控制(Disease Response)、智能化决策(Intelligence)等。两个产品线的核心技术是服务客户整理、分析、利用不同来源的结构化和非结构化数据,创造一种人脑决策和计算机智能共生的大数据分析环境及工具系统,人脑和大数据分析互补,提升客户的决策洞察力。Palantir在大数据江湖上最传奇的战绩,一是帮多家银行追回纳斯达克前主席麦道夫庞氏骗局的数十亿美金,二是帮助奥巴马政府追捕到本拉登。下面我们以军事、金融、警务三个方面的案例来对其产品的服务内容和技术体系进行初步探索和分析:
(1)以军事国防解决方案为例。其核心目标是将多个军事情报领域的海量数据进行融合和关联分析,转化为可操作的决策指挥能力,多情报领域数据的集成和融合是要解决的关键问题,包括非结构化和结构化数据流,如链接图,电子表格,电话,文档,网络数据,传感器数据,甚至动态视频、图像等。Palantir提供了一个基于本体映射的全量多模态数据融合和协同挖掘分析大数据支撑框架,可以对在地理、空间上分散的人、装备、环境、事件等进行大规模实时关联和因果分析,以指导复杂战场环境下的军事行动。这些大数据技术已被美国军方广泛运用于战场态势分析和预测,如定位伊拉克战场可能存在的炸弹或地雷位置,帮助美军在巴格达规划一条被袭概率最小的路径,或者分析亚丁湾海盗活动的热点区域。这些分析整合了美军等多方原本孤立的数据源(如军事情报部门和陆海空、海军陆战队等组织机构的数据),通过Palantir基于本体的大数据融合技术,无缝整合多源异构数据和进行分析模型协同,包括各类数据模型、安全模型和本体对象的管理,其全量数据分析和知识管理能跟踪每一个数据和模型的读,写和编辑、保存,以积累战场空间的决策知识。基于通用的大数据融合和可视化分析平台,使指挥人员和调度人员能在单一系统内解决所有问题,包括敌人的活动情报分析(情报报告,事件行为等),关联分析(背景、关联、跟踪、反应等)和预判决策等功能。下面几个图(图2-4)是Palantir 为美国军队提供的软件功能界面,从其中的功能和数据元素我们可以看出Palantir 的大数据分析技术已经深入美国核心情报军事机构,帮助其实现作战打击链的全局决策支持,从分析情报、打击目标,再将军事行动中获得的新情报与现有大数据进行融合更新,极大提高了情报分析和指挥决策能力。
图2. 国防部和海军的一个联席分析功能界面,对其舰船、飞机、情报文本和相关战场环境资源做了融合和关联,在统一视图里面进行管控,技术实现上把上述现实资源通过本体论映射为各类事件、实体、对象及其关系。
图3. 阿富汗战场的融合分析功能界面,对各个区域的各类事件(武装袭击、爆炸、绑架等)进行了大规模关联分析,通过大规模数据可视化钻取和查询,可以找出事件之间的因果关系链。
图4. 战场空间感知态势图,战场环境下各类资源和事件总体态势分析,GIS/GPS/卫星图像整合各类数据图层的管理
(2)以金融欺诈解决方案为例。Palantir凭借其为政府服务的影响力,在2010年摩根大通成为它的首批非政府客户。后来Palantir帮多家银行追回纳斯达克前主席麦道夫庞氏骗局的数十亿美金,名声大振,其出色的大数据技术获得华尔街金融大鳄们的认可,目前许多银行、保险、对冲基金,包括美国证券交易委员会都在使用Palantir的产品和技术。反欺诈是金融领域的一项关键业务,信用评级、风险管理、关联交易、洗钱、逃税等都涉及此项分析内容。而金融是信息化程度极高的行业,拥有海量的相关数据。Palantir的Metropolis平台可将许多孤立的金融环境数据汇集到统一分析系统,通过回归关联建模、频繁项分析和知识图谱、社交网络等机器学习和大数据可视化技术挖掘出有价值的信息。下面图5-6是Palantir金融版功能界面。
图5. Palantir金融版Metropolis平台功能界面图
图6. 通过关联交易、知识图谱、社交网络和频繁项等机器学习技术建立的金融反欺诈分析视图
(3)以警务预测解决方案为例。Palantir通过与美国各州的警队合作,将遍布在城市及乡镇各处卡口、警车上的摄像头拍下的照片及视频入库存储,与警方的人口数据库、犯罪数据库、DNA数据库等进行深度融合,提取出如车牌号码、人脸、DNA及体态等关键信息,这些信息虽然繁琐且表面看起来关联性不强,但其间却蕴藏着各式各样的关系(强、弱;直接、间接等),联系之间更是隐藏着深层的信息。通过大规模数据可视化交互技术可将数据间有价值的关联关系深度挖掘出来,形成完整的证据链条,为警方节约大量的人力和时间,而且通过间接关联分析,一定程度上能解决线索中断的问题。通过预测性警务模型分析历史犯罪数据,还能计算出最有可能在警察下一次执勤时发生犯罪活动的地点。2011年,美国海关的一名情报人员在墨西哥被一群毒贩射杀,美国警方随即展开名为Operation Fallen Hero的行动,利用Palantir大数据技术,在浩瀚的人物、地点以及事件等等元素中间建立复杂的关系链,同时融合联邦探员自身掌握的信息,如大毒枭们,及其下线的融资渠道以及运毒路线,通过对与本案相关多源数据关联的可视化展现、交互分析,将分散隐蔽的证据、信息进行有效衔接,同时筛选排除干扰信息,将证据链完整呈现。最终通过资金往来以及人际关系网络分析理清了关键人物以及关键联系,并确定了主要嫌疑犯,逮捕了600多名毒贩和大批毒品武器。
图7. 传统的嫌疑人关系网及证据链分析示意图,白板、便签是标配
图8. Palantir系统锁定嫌疑人分析功能界面,通过整合各类人员信息,包括地址、邮件、电话、交易、消费、旅行等各类数据;事件、对象关系网络可视化,来分析各类人员信息和事件之间的关联关系,构造完整的证据链条。
通过上述三个解决方案的初步业务和技术分析,Palantir的核心技术关键词可见一斑。一是敏捷大数据架构,构建了数据融合和可视化基础大数据分析架构,在数据规模可扩展性基础上,兼顾分析实时性和灵活性;二是全量的数据融合和关联存储,通过本体论抽象出各类数据资源的关系进行映射存储和关联索引设计;三是分析模型的动态组合和快速定制,针对不同分析场景可以快速组建分析模型;四是面向人机共生的大数据可视化技术,构造全局分析链,把人脑决策和数据可视化探索进行深度融合。下面我们分别对这几个方面的核心技术进行探索和解读。
Palantir架构设计
敏捷大数据架构
的优美实现
▼
如果AI时代谷歌的DeepMind是互联网的大脑(B2C-AI),那么Palantir很可能就是企业巨头和政府领域的AI大脑(B2B-AI)。Palantir的核心技术可以说是构建了一种“大数据分析的基础设施”,这套大数据基础设施一定是敏捷灵活的,能否催生智能还看核心技术的演进。Palantir大数据架构从数据融合、应用建模和可视化决策三个层面为客户提供各种敏捷数据分析平台和系统,基于海量数据的融合和分析,可以曝光恐怖分子的网络,计算战场环境下的安全驾驶路线,探索犯罪分布和追索嫌疑人,还能跟踪致命病毒的爆发路径等。这一切的实现都是基于其敏捷大数据架构(Scale, Speed, Agility)。我在前文《说说敏捷大数据》和《大数据应用从小做起?谈微服务和大数据架构》中对敏捷大数据给出了初步定义:“敏捷大数据是基于数据科学的迭代性本质,利用高效构件化和微服务化技术,对大数据架构和关键组件等进行服务化设计,实现多粒度数据的融合处理和计算模型的标准化配置和管理,从而能根据特定分析需求快速搭建原型系统,快速迭代大数据分析结果,快速将原型转化为生产系统,提升大数据分析效率和数据决策价值”。敏捷大数据的核心要素遵从SFV原则(Small,Fast,Validation,SFV):一是小、二是快、三是证,小的业务分析目标切入,快速出原型快速迭代,证明有效之后再扩张。
从Palantir的技术组件和功能分析来看,通过其数据融合和本体抽象映射,以及模型组合和可视化等技术,应该说初步实现了敏捷大数据分析目标,虽然关键技术方面跟我的前述提法有些许差别。下面从大数据架构角度解读几个关键的技术点:从图10的Palantir大数据物理架构设计图可以看出,其核心是围绕全量的数据融合和关联存储,通过本体论抽象出各类数据资源的关系进行映射存储和关联索引,设计实现参考了全文搜索的思想,不过是在多源、异构、多模态条件下的全文索引和搜索,里面涵盖了复杂的动态本体论,以及对现实对象和实体的转换、映射和关联等操作,相比互联网搜索引擎的索引技术,进行了深度扩展。另外,Palantir采用了clusterable数据存储技术如Phoenix系统,支持PB级规模数据扩展。从底层的数据整合,数据管道的定制,以及自定义的分析指标和用户界面,都被整合进一套可视化的向导式的大数据分析平台。还设计了revdb可跟踪任何本体资源的动态变化,以支持动态模型分析和实时决策。
图9. Palantir大数据系统技术架构设计图
Palantir通过适配器和系统API,将多源异构数据表示为统一的模型(Model),也就是数据动态本体的融合实现,作为分析的基本数据单元,模型是源数据集的行和列转化为现实世界中实体的概念对象,任何可用数据描述的现实世界对象都可以作为模型。模型之间可以多重组合,构成更大的模型,以支持复杂的计算。Palantir系统在初始化时需要配置分析目标所需的模型类型及其相关属性。同样,Document作为实际的数据+分析单元,是一种动态数据流,可以不断迭代并作为新的分析模型输入,而且简单的Document可以组合为更复杂的Document,而Metrics可对模型Model进行各种计算。通过Model、Metrics和Document三种系统对象进行关联分析操作,简单的Model被作为更复杂Model的构建块,简单的Document被作为更复杂的Document构建块,基于动态本体的支持,可以让分析人员构建和分析任意现实数据和对象,针对数据科学的迭代本质,可以让分析人员不断转变分析逻辑,验证新假设,并将新发现交给决策者,决策者重新制定新关注点,并向分析者提出新问题。最后通过这种迭代式、交互式、可视化大数据分析技术(如图11)进行切实的辅助决策支持。可以看出,上述Palantir系统设计的各种元素及其设计思想,极其符合敏捷大数据架构特征,可以说是一种敏捷大数据架构的优美实现。
图10. Palantir大数据可视化功能界面图
Palantir大数据融合
本体论与全量数据的
无缝融合索引设计
▼
Palantir敏捷大数据的设计实现,采用现实世界的本体抽象理论方法,基于现实对象和实体的数据映射模型,动态本体是由来自多个数据源的数据(包括结构化数据如日志文件,电子表格和表格;和非结构化数据,如电子邮件,文档,图像和视频等。)进行转换和集成,从原始存储格式转化为数据实体对象和相关的属性(类似于数据仓库的数据集市模型,如雪花和星型模式),实体及其关联关系代表了现实世界中的人、物、事件、时空等对象属性以及它们之间的连接。因为现实世界的对象属性时刻在变化,所以这些模型也是需要能随时间变化的,动态本体设计就是基于这一核心思想,并对各类数据源的自动添加,删除,修改及其映射等操作进行了简化。这种动态本体数据模型设计,极大简化和标准化了数据集成和大数据融合过程。
如何对现实世界进行本体设计和实现是Palantir最为基础的核心技术,先看看什么叫本体论:“Ontology(本体论)一词是由17世纪的德国经院学者郭克兰纽(Goclenius,1547-1628)首先提出。在古希腊罗马哲学中,本体论的研究主要是探究世界的本原或基质。各派哲学家力图把世界的存在归结为某种物质的、精神的实体或某个抽象原则。巴门尼德提出了唯一不变的本原“存在”,使关于存在的研究成为这一时期的主题。亚里士多德认为哲学研究的主要对象是实体,而实体或本体的问题是关于本质、共相和个体事物的问题。他认为研究实体或本体的哲学是高于其他一切科学的第一哲学。从此,本体论的研究转入探讨本质与现象、共相与殊相、一般与个别等的关系。本体论(ontology)是哲学概念,它是研究存在的本质的哲学问题。但近几十年里,这个词被应用到计算机界,并在人工智能、计算机语言以及数据库理论中扮演着越来越重要的作用。”—来源于百度百科。
图11. 基因本体示意图
十年前,我做文本分类挖掘时了解过“本体”这一概念,当时觉得太虚幻并未在意。当我看到Palantir创始人Alex Karp师从德国的Jürgen Habermas获得哲学博士,再看他家产品的设计理念,才恍然大悟,也许这个本体论在计算机的世界里,真是能反应现实世界的知识结构及其关联关系呢?虽然Karp是个哲学博士,但看来他是深谙计算机知识工程本质的,通过现实世界数据的本体设计,再加上以人为中心的大数据分析理念,成就了Palantir让美国军方和金融大鳄认可的核心技术和产品,再次说明了让大数据应用落地并产生价值具有一定挑战性(当然前提是他家产品确实是得到高度的认可,而不是虚假的营销和包装),数据建模好做可视化也能做,但怎么和决策深度融合,怎么让客户易于理解使用,比传统MIS系统要难很多。Palantir的无缝数据融合技术关键在于本体数据模型的灵活性,动态性,而且要能反映人、事、物和环境的关联关系及因果联系,这是大数据技术面临的核心挑战。Palantir通过本体设计、模型组合和类似数据集市等设计方法和技术,实现了各领域的智能分析,比如财务分析,基本数据类型和本体模型包括金融工具,日期,投资组合,指数和策略等,金融研究人员的思考、经验、谈论和推理等内容作为本体数据的衍生,构成类似数据集市的大的领域本体。在其它军事、网络分析产品中,设计思路和方法类似。本体数据类型包括了人、地点、事物和事件所有关系及其相关属性,而这正是我们人脑中思考表达世界的方式,突出人在分析过程中与现实世界数据的交互能力(human-driven analysis),再结合可视化技术,通过这种数据融合分析过程,我们就更容易在大数据中找寻具有特殊意义和决策价值的信息。
Palantir大数据计算
多维关联挖掘与
全链因果分析视图
▼
基于本体论模型的海量数据融合和关联索引设计,是Palantir大数据计算的基础。而机器学习算法和强大的数据扫描及分析引擎(可以同时扫描多个数据库)是其大数据计算的关键技术。针对现实环境中大数据多源、异构、海量等特征,传统的计算模型难以直接处理。一般来讲,数据计算层需满足主流大数据处理框架的各种计算模型与方法实现,如基于云计算并行框架,来实现基于Hadoop批处理、Storm流处理、Spark内存处理的高效数据挖掘与机器学习。而且要支持MapReduce、Storm、Spark等多种计算模式下的多种数据挖掘模型与方法。Palantir的数据计算层网上公开资料不多,具体基于那些机器学习模型实现的信息很有限,总体看来其应用的机器学习算法并不太多,其核心是全面的数据融合,关联索引和可视化分析。但其设计思想还是可以大概梳理出来,Palantir的数据计算层主要通过资源管理器进行实现,包括模型和数据两个层面的资源:一是用于分析模型资源的统一管理。资源管理器允许分析人员定义和应用一系列过滤器,快速进行各类分析模型的组合和构建。子模型的结果可以建立快照和保存,并用于组合更大的分析任务模型。二是用于数据本体资源的管理,数据本体作为一个灵活的映射为图形对象及其关系的真实世界实体,如“人”和“组织”的相关特征,以及它们之间的连接,需要集成许多不同种类的多源异构数据资源,并通过数据库索引技术把各级数据本体及其属性、相互联系等融合成有机整体,以供可视化全证据链分析。
图12. Palantir大数据计算与关联分析功能界面图
分析人员可以利用机器学习、统计和数学符号库对各类模型进行计算和构建,简单的模型可以作为构建更复杂模型的基础,而更为精巧复杂的分析行为就是一个流线型、模块化的过程。Palantir创建的分析模型以一种被称为Document的形式进行存储,模型可以分享,链接和重组,而且可以加入工作流程中进行迭代分析。通过Model、Document和Metric的组合和连接,构建模型组合和关联分析的整个分析链条,并在可视化界面上进行互动操作和多视角关联分析。通过这种数据计算建模方式,基于数据融合本体模型和以人为中心的数据可视化技术,实现快速查询,快速迭代和分析协同,将整个过程的相关碎片信息汇集到Palantir系统,建立关联联系,分析因果关系,最终构建一套强大的通用大数据分析平台。
Palantir大数据可视化
决策导向与人机共生
的分析环境
▼
大数据分析工具固然重要,但是人的判断更重要,机器智能只能是辅助决策(特别是重要的决策)。通过大规模机器学习,可以获得领域专家或决策者关注的价值规律信息,但应用要落地,就必须对挖掘分析结果进行直观理解和形成辅助决策知识,传统的人机交互方式对大数据可视化决策来讲还不够,大数据可视化互动操作(钻取、多层次、多视角)、对基于GPS/GIS/卫星图像的大规模空间网络和附加数据图层可视化、动态数据流轨迹和链路可视化等技术都需要深入研究。Palantir的产品把海量多源、异构数据的融合和机器学习算法引擎整合得很优美,处处体现了敏捷大数据设计思想。但更为出彩的设计还是它的可视化技术,Palantir提出了一种人机共生的可视化大数据交互探索分析理念,这里我再加了决策导向,为什么要人机共生,当然是更好地服务于决策,Palantir的本体数据模型设计同样是想帮助人们更好地理解现实世界的各类实体、对象及其联系。
图13. Palantir大数据可视化交互界面图
我们都知道,大数据不仅数量庞大而且可能动态变化,大数据环境下普通用户如何才能理解和使用好分析工具很关键,甚至很多用户对自身的分析需求都不知道的情况下。Palantir不只是做数据整合和把分析结果摆出来就完事了,而是把初步分析结果呈现给用户,让用户深度参与后续的探索过程,从而发现各种信息之间的联系,帮助用户寻找的深层分析需求和数据之间的深度关联,整个过程是不断迭代和优化的,最终提高用户的决策能力。要让用户搞清楚这一个过程,多种维度的可视化技术十分关键,当然Palantir的数据本体模型设计,在一定程度上降低了用户对数据的理解难度,相比分类、聚类、预测、神经网络及其复杂参数项等概念来讲,现实数据和实体、属性、事件、关系等进行映射,一般人还是可以理解。Palantir的探索式、交互式可视化界面采用了丰富的大数据可视化组件,各类表格,散点图、地图、网络图、热点图、曲线图等可视化图表结合本体属性、事件、对象、关系的快速展示和流畅交互,为用户提供了一个大数据主题分析相关的全盘可视化视角,而且其功能随着数据源或分析条件变化可以动态调整和实时响应,下图是Palantir典型的可视化图表。
图14 Palantir大数据可视化典型图表
总结与启示
▼
最后做个小结,本文对大数据独角兽企业Palantir的核心技术进行了初步探索和解读,从企业应用和各级地方政府大数据应用的了解情况看,我们与美国在大数据领域的关键技术研究方面还存有较大差距。正是因为Palantir这种明星公司可能有过度包装宣传的因素,所以本文从技术角度进行了分析,对其技术成熟度和技术先进性应该说有了一定理解和把握,包括其大数据架构、大数据融合(将所有的相关数据进行自动连接,构建相关数据链)和核心技术的设计思想、大数据计算和模型元素(Model-Metric-Document分析嵌套)组合以及以人为中心的可视化技术等内容。当然受限于核心技术资料的公开度,各项关键技术暂时无法做细致深入的解构。
多年前我和一位朋友就讨论过一个问题,当然那时候还没有大数据这个概念,当时我们在思考能否设计一个软件,能整合和查询大型企业所有相关数据,包括各种业务系统数据库、全局信息环境下各类PC和各级服务器上的文本、图片、视频或公网的相关竞争情报数据等,后来确实出现过类似系统,叫企业搜索引擎,不过当时很多国内企业连单视图或多维度报表都做不好,结构化数据都还不能高效管理,何来非结构数据的整合需求呢?想来也是太超前了,但大数据分析要有价值,散布于各类非结构化文件中的数据是不能忽视的。现在Palantir的B2B大数据业务就是在做这个事情,而且是做大做强了。所以说,要构建大型企业和政府机构的决策大脑,B2B的企业大数据分析绕不过去,散布于工位PC和服务器集群中的各类非结构化文件数据蕴含的价值,不比标准数据库的价值小,各种数据报告、汇总报表、机要通知、应急预案等都不一定存数据库里。所以说,B2B大数据的应用价值不会比互联网大数据应用价值小。Palantir的政府大数据系统、金融大数据系统、DeepMind的医疗大数据系统、通用电气(GE)的工业大数据系统、华为的内部大数据系统等,都在向这个趋势演化。
另外,大数据分析,一定面临数据多源异构、关联性、动态性和不确定性等复杂多变的问题,Palantir的“人机共生”大数据分析理念值得我们学习,而且很可能会是将来AI时代最为重要的大数据应用模式。例如军事情报分析和反欺诈分析,敌人或犯罪分子的应对手段也是在动态变化的,只靠历史数据分析是不够的,而且最新动态信息跟不上的话,分析结果可能会造成严重误导(就像猪的世界里很难有屠场存档记录,还有最近几年世界各国频出黑天鹅事件,都说明大数据的动态、增量因素是我们必须考虑的),换句话说,大数据系统一定要解决动态、增量、反馈、决策这几个关键问题,基于数据科学迭代本质,要把这几个方面串起来,形成完整的分析链和迭代分析环境,从某种程度上讲就是类似Palantir的人机共生环境。采用Palantir产品设计的人脑决策和智能系统共生的分析方式,能够对快速变化作出实时响应,大数据不仅仅是数据采集,分析和管理,更为重要的是领域业务、知识模型和本体抽象融合,把人的理解和决策,与机器智能的融合、计算、推理、实时迭代等能力强强联合,是Palantir最为核心的大数据技术,另外Palantir做的不只是产品,通过技术人员的现场服务,帮助分析人员理解融入人机共生的大数据分析环境,才能最大化大数据系统的决策价值。
总之,大数据和AI时代的基础设施,除了互联网界的谷歌、亚马逊等巨头之外,在传统大型企业和政府领域还会有Palantir这样的B2B大数据独角兽,换句话说,Palantir代表了美国在线下大数据领域的核心竞争力(特别是结合空天技术的军事、情报、公共安全大数据,是大数据时代国防和内外部安全的核心技术保障),互联网毕竟还是虚拟空间,不能构建真实世界完整的数据视图,军事、金融、政务、交通、医疗等领域融合自身线下大数据,和线上数据的高效智能分析决策,才是未来国家大数据治理之根本。如此看来,人工智能时代,不管是B2C还是B2B大数据,核心技术的落后,其后果都是难以估量的。
大数据独角兽Palantir之核心技术探秘