首页 > 代码库 > 因素空间理论在大数据中的应用——汪培庄
因素空间理论在大数据中的应用——汪培庄
因素空间理论在大数据中的应用
汪培庄
辽宁工程技术大学
(在大数据与数据科学进展主题论坛上的发言稿,经过整理)
我国数据与机器智能科学工作者肩负着引领大数据时代浪潮的重任,这是关乎我们能否顺利实现中国梦的大事。无论多困难,我们一定要争取走向前列。作为在信息革命领域里头曾经撕杀过的一名老兵,我曾经打造一个理论,就等这一天来接受新的考验,这个理论就是因素空间。
一、因素空间的历史贡献
87年7月,日本学者山川烈在东京召开的国际模糊系统大会展厅里摆着一台机器,明确写着FUZZY COMPUTER的字样,用一个倒摆控制来作演示。日本的《朝日新闻》连续三天报导,说这是后五代计算机。88年5月,《光明日报》报导“北师大汪培庄教授指导博士研究生研制出国际第二台模糊推理机”,速度从每秒1千万次提高到1千五百万次推理,体积缩小不到他的十分之一。这是中国当时在国际信息革命争夺战中所打的一次漂亮仗。胜利的直接原因是我用因素空间建立了随机集与模糊落影理论,从数学上远强于日本。
60年代在教概率论课的时候,我就在黑板上画了一个因素空间的图像。丢一枚硬币,为什么事先不能断定它究竟会是哪一面朝上呢?原因是,像‘手的动作’等这样一些因素难以掌握和控制。当因素空间可操控的维度不充分时,由于因果律的破缺而出现了随机性。因素空间是联系随机性与确定性的桥梁。二者可以相互转化,就看因素空间的维度如何掌控。柯尔莫哥洛夫所提出的基本空间就是一个因素空间,没有因素空间的思想,就不能把一个随机变量定义成为一个必然性的映射,就只能谈古典概率而无法诱导出分布函数和分布密度,就没有概率论的现代化。70年代我搞模糊集研究,Zadeh只把模糊集定义成论域上的一条曲线,论域被当作一个不定义的名词而无人问津,我把论域看成是一个因素空间。用它来探讨模糊性的真谛。因素空间又成为联系模糊性与清晰性的一座桥梁。我发现这两个桥梁之间有一种特殊的关系:用数学描述主观因素比客观因素要难,要上升一个层次,把集合论提升到它的幂,即集合的集合之上,形象地说,要从地面提到天上。我提出:地上的模糊性可以转化为天上的随机性。像隶属度、信度等这一类带有主观性的度量都不像概率那样满足可加性,它们都是非可加性测度。都需要绕到天上搞可加测度,再落下来得到非可加测度。我在85年北师大出版社出版的《模糊集与随机集落影》一书中,以高难度的工作,把序,拓扑和测度这三种基本数学结构都提到幂上,建立了主观性度量的一般数学理论,占领了定性事物量化的理论制高点,直到现在还没有被国外所超越。 Shefer的信度理论和Matheron的随机集在我书里只需少量篇幅就可被点注清楚。当今所涉猎的三种超拓扑都在我8种超拓扑的囊括之中。所以,我亲身体验到因素空间理论的重要性。
这个胜仗实际上是钱老指导的,钱老在1986年2月13号给我写了一封信,说“文稿收到:山川烈的工作说明他也在研究智能机的问题,也以为模糊推理是个途径,并且动手研制元件了。所以我们国家也要有人搞元件,你校有人吗?你知道有什么人在搞模糊元件吗?”实际上是在钱老的指示下,我们才做了这个事情。等这个事情完成后,钱老把我和几位研究生叫到他的办公室,一边看录像一边谈话。他说:“五十年代搞两弹是有了理论而去干的问题,现在搞智能计算机比那时难,最伤脑筋的事情就是还没有真正的理论。人工智能搞了这么多年,还没有摸索出真正的理论。”钱老特别强调数学,因为工业革命的数学准备是牛顿的微积分(还有他的前人),计算机是先有数学构想才搞出来的。在他说话的时候,人工智能已搞了多年,但真正起作用的数学工具仍是以概率论为基础的统计方法,这是不能长久的。我领会到钱老的高瞻远瞩,从钱老讲话以后,我就带领研究生集中精力研究因素空间。其主要结果发表于以下三本书中:
- 汪培庄,李洪兴,知识表示的数学理论,天津科技出版社,1994
- 刘增良,因素神经网络理论,北师大出版社,1990
- 汪培庄,李洪兴,模糊系统理论与模糊计算机,科学出版社,1995
书1介绍的就是因素空间理论,书2是将因素空间用于神经网络,书3介绍的是模糊集与因素空间在模糊推理机及模糊计算机研制中的综合运用。我们力图把模糊推理的机制加以提炼,期望在计算机已有的数值运算中心处理器之外再加一个模糊推理的中心处理器,以便研制出智能计算机。一些基本的智能器件的数学构思都写了,就等相应的物化元器件的诞生。
就在我们把注意力集中在中心处理器的研制上的时候,一个新的浪潮悄然而至,开始了智能网络的新时代。当全球的电脑都联网以后,什么叫作一台计算机?这似乎需要重新定义。无论如何,中心处理器已被边缘化,原来处于衬托和附属地位的数据软件主导着信息的传输和运作。1989年出现的KDD和后继的数据挖掘标志着机器智能的重心已经从第五代计算机的研制转向数据智能化。大数据浪潮的迅猛势头是智能网络时代威力的表现和先声,智能网络时代的核心竞争在于人机认知体的诞生。各种人机认知体将会形成一个个自组织的生态系统,掌握和影响着人类生活的方方面面,这是一个不以人们意志为转移的严峻事实。你不能阻挡它,只能诱导它。这里才是钱老所说的机器智能的国际争夺的新制高点!由于我认识的片面性和自满情绪,没有及时调整方向,贻误了战机。我们曾经占领的高地已被丢失。回头看一下国际智能数据中较早兴起的两个数学流派,形式概念分析和粗糙集,他们所研究的正是因素空间的样本分析。但是,他们都说不清道不明样本的母体分布是什么?因素空间既然是信息描述的普适框架,而数据又是信息的载体,因素空间自然能为数据分析提供母体理论,成为数据科学的理论基础。因素空间的正式论文和所说的这两个数学理论原来都是在1982这一年同年发表的,这不仅仅是一种巧合,历史在召唤我们,要把失去的阵地重新夺回来!
二、因素空间的内容、意义和方法
什么是因素?因素是事物的质根。例如,男,女是人的一对质性,性别就是二者的质根,性别就是一个因素。红,黄,蓝,白,黑,…是事物的一组质性,颜色是它们的质根,颜色也是一个因素。每一个质根都统帅一系列质性,所以基因是比质性高一层的东西。它提纲挈领,如果一个因素带两个质性,10个因素带出的综合质性是多少呢?是2的十次方。不能把因素与质性相混淆。质性就是属性,为什么不用属性这个现成的名称而要用新词呢?原因在于:属性一词在数据库中的出现,是从英语‘Attribute’一词翻译过来的。而英语中的这一词汇在国外有两种不同的用法。Will在形式概念分析中用Attribute指质性,例如,他对科教片“生物与水”进行概念提取时,列举鱼和水草都是‘在水中生活’,狗和豆都‘在陆地上生活’。他把‘在水中生活’与‘在陆地上生活’列为两个不同的Attribute。可见,他用Attribute指质性,而不是指‘生物栖性’这一质根。而在粗糙集中,Attribute指的不是质性而是质根。例如,在讲按属性分类时把积木玩具按颜色,形状和体积来分类,在那里,Attribute指的是颜色,形状和体积,它们都是质根。这两种不同的用法混淆了质性与质根的界限。我国计算机界的同仁们已注意这种混淆的情况,强调:‘颜色’与‘红’‘黄’‘蓝’不能混淆,若把红,黄,蓝等叫做属性,那颜色就不能再叫属性,而改称属性名;若把颜色叫属性,那么,红,黄,蓝等就不能再叫属性,而改称属性值。我们希望能采取前一种叫法。因为,因素就是属性的属性,它是同类属性之名。这样一来,我们就有两种协调一致,统一共存,彼此等价的叫法。有利于学科的交叉与发展。
基因是生物学中的质根,每个基因都有一串挂钩,每个挂钩指定一个生物属性值。孟德尔最早把基因叫做因素(Mendelian factor),因素是广义的基因。孟德尔发现基因,找到了解开生命体的钥匙,我们强调了因素,便可找到打开对万事万物进行描述的一把钥匙。基因就是认知之因,是事物形成与被认识的基本要素。
什么是因素空间?因素空间是以因素(属性名)为轴的坐标架,任何事物都可被抽象成因素空间的一个点。它是信息描述的普适性框架。
因素之间存在着分析与综合的运算,在数学上形成一个布尔代数。因素空间被数学地定义成满足一定公理的以布尔代数为指标集的集合族。
笛卡尔的坐标系可以看成特殊的因素空间,但是因素空间的这些坐标维数是可以变的。在任何时候,我们总是要用尽可能少的维度来处理事物。也就是要不断转换主要因素和次要因素。因素空间的坐标轴不一定是欧式实轴,对非结构的事物一样处理。 因素空间理论还有因素藤,它是嵌入式的。因素空间中的一个点,可以放大成一个新的因素空间。若用表格形式表示因素空间的一组样本点,则这个点可用新因素空间的概念符号来表示。
因素空间的根本目的是要为信息描述提供普遍的框架,为思维科学奠定严格的数学基础。在当前,它要为数据科学提供数学理论基础。为构建人机认知体的巨大工程效力。
因素空间与数据科学何关系?
在现行的关系数据库表中,除掉对象列,一个信息系统就是因素空间的一组样本点。因素空间就是承载其母体的平台。
因素空间把Codd用以建立关系库的一般关系进一步明确规定为反映诸因素的属性组态的一种特定关系,叫做背景关系。它决定了母体所含的全部认知信息,决定了概念与推理的提取。用因素空间来处理关系数据库,在概念提取和因果推理这两个环节上比起现有方法,道理简单,算法快捷。由于背景关系决定一切,而背景关系就是所有样本关系的并集,所以,具有相同表头的表格可以对行(对象)拼接,特别适合分布、分时的运算。数据越大,越有办法。按照徐宗本教授对大数据算法的界定,因素空间很适于建立某一类(与知识表示相关的)大数据算法。
因素空间的核心内容在哪里?
首先,人的思维活动归根结底是概念的划分。人生出来,世界是混沌一团,叫零概念,内涵为空。随着知识的增加,概念越分越细。从上位概念到下位概念,外延越来越小,内涵则是在继承上位概念的内涵之后又补充一些新的属性描述。从上位概念到下位概念的分解过程就是人类认知的一个认知单元。概念划分离不开因素。每个认知单元都对应着一组因素,叫做单元因素。这组单元因素构成一个因素空间。叫做认知单元空间。因素空间的认知单元空间直接而完整地用数学描述了人的认知单元。
以一个上位概念的外延为论域$U$的认知单元空间被记为$(\{X_f\}_{f\in F};U)$,这里,有一组单元因素$f_{1},\cdots,f_n$综合而成因素$F=f_1\vee \cdots \vee f_n$。每一个因素$f_i$又被定义成一个映射$f_i:U\rightarrow X_{f_i}$, 其中$X_{f_i}$是$U$中对象在因素$f_i$下一切可能的属性值的集合,叫做因素$f_i$的状态空间。因素$F$也被定义成一个映射$F:U\rightarrow F$, 其中$X_F$是$U$中对象在综合因素$F$下一切可能的属性值的集合,叫做综合状态空间。记
$R=\{{x}=(x_1,x_2,\cdots,x_n)\in X_F|\exists u \in U;{x}=F(u)\}(i.e.\ x_1= f_1(u),\cdots, x_n= f_n(u))$,
叫做认知单元的背景空间,也叫做诸单元因素$f_{1},\cdots,f_n\}$间的背景关系。背景关系是对诸因素间属性组态的一种限制,它要求每一种搭配必须是实际存在的,亦即,在论域$U$中存在着一个对象$u$具有此种组态。
背景关系决定了下位概念的划分。在综合因素$F$的状态空间$X_F$中的一个超矩形${a}=a_1\times \cdots \times a_n$在$U$中确定了一个概念的外延$E=\{u\in U|F(u)\in {a}\}$,其内涵可用定性语言描述为:“在第$i$因素下具有属性值$a_i(i=1,\cdots,n)$”。这里,$a_i$都取为定性的语言值。这样的超矩形必须整个地被背景关系$R$所包含,而且不能再扩张,其分解完全由背景关系所确定。
单元因素间互为因果,我们可将综合因素$F$分解为条件因素与结果因素两个部分:$F=f\vee g$设$X=X_f$和$Y=X_g$分别是因素$f, g$的状态空间,我们来讨论它们之间的因果关系。
一个极端情形是:所有组态都不虚空,$R=X\times Y$, 在这种情况下,因素$f, g$被定义成相互独立,独立因素之间没有有意义的因果推理。因果推理发生于背景的约束之中。
基本定理:背景关系R决定了因素$f, g$之间的全部恒真推理句。
注意$f, g$本身可以是复杂因素,$X,Y$可以是任意高维的,这个定理就很有效力。它抬高了背景关系的地位。背景关系是对形式背景的拓广,Will所提出的形式背景成为我们因素库理论的中心。基本定理告诉我们:掌握了背景关系,就掌握了因素之间的全部推理知识。因素空间推理的核心就在确定$R$之形!一张关系数据库表(又叫信息系统)是对象到因素状态空间的一个映射样本。把对象列去掉,即样本隐私化,就得到背景样本。背景关系是背景样本的母体,母体可靠样本叠加而获得。有一个基本命题说:背景关系R等于诸样本背景的并集,可以对行(对象)拼接。这就符合大数据算法所要求的,可以分布,分时,并行运算,可以对解进行组合和拼接。
这样,数据的地位就起了变化。从前数据只是被分析的流沙,现在却变成我们精心培植的对象。我们要保留样本的叠加,当它代表母体时,全部推理知识都由它产生。我们不怕它犯错误,它在哪里犯错误,就在哪里叠加,就向真正母体逼近了一步。一个成熟的样本,就是不再或很少犯错误,就是很接近母体。
从纯集合论的观点看,背景关系的母体分布不同于概率论中常见的分布。边陲性重于疏密性,身高的背景界限决定于像姚明这样的奇男子,而不在乎大多数人有多高。不能忽视稀有对象。这也符合大数据摆脱密度限制的特性。
背景关系通常具有凸性,既有2.3米和2.1 米高的人,便有2.2米高的人。即使现在没有,将来也可能有。在母体$R$具有凸性的前提下,$R$可以由它的顶点决定,这样,就可以将所有非顶点全部压缩掉,这关乎大数据处理的核心理论和技术。于是,背景关系R又被背景基$B$所取代。背景基保证了成熟的认知单元的存储简捷性。认知单元的全部推理知识可以压缩在一个不大的数值矩阵里。
因素空间研究些什么问题?
认知单元空间要研究的主要内容就是:
- 寻找算法,从给定的认知单元数据样本中提取概念。其中的主要问题是:怎样培植样本,使之逼近母体的真实概念?怎样在概念提取中区分因素的主次?
- 寻找算法,从给定的认知单元数据样本中提取单元因素之间的因果推理规则。其中的主要问题是:怎样培植样本,使之逼近母体的全部推理知识?怎样压缩这些知识而不受大数据的掩埋?怎样保证运算的高效性与合理性?怎样在推理规则的提取中区分因素的主次?
- 寻找理论与算法,基于前两条任务而进行高级思维活动,如识别,决策,预测,控制,逆向推理等等。
其次,要将认知单元扩展成认知空间,因素空间的研究就必须包含以下任务:
4. 研究因素藤的嵌入结构,形成因素神经网络,使各个认知单元能够相互衔接,形成认知的系统,大系统,大体系,实现构建人机认知体的宏大工程。在这种融合过程中,要不断提出并履行前三项任务,即进行跨单元的概念,判断和推理。
以上四条就是因素空间为数据科学所必须提出的内容。用因素空间来处理的数据库简称为因素库。
思维过程不同于其它物质运动过程,它带有自己的特色,为了反映这些特色,还要包含以下任务:
5. 因素的权重及因素突显问题
人脑活动的特点是因素驱动,遇到一个问题,怎么办?首先是要抓因素。相互矛盾的几个主要因素交叉,人要在诸因素间求得平衡,就要权衡利弊,从重就轻,形成权重。有固定不变的权重,更有变动的权重。因素的权重就成为一个特殊的研究课题。
因素的权重可以看做是因素的线性或非线性变换。模式识别的实践,常常要求对因素作这样那样的变换,才能把真正分类的因子显现出来。这叫做特征抽取。 特征也是因素,特征抽取就是因素化隐为显的过程。因素突显是值得研究的重要课题。
6. 因素空间的势与场
势优化是事物生成和发展的动力,也是人脑思维的动理。因素空间存在着势和优化问题。解一个线性规划问题是一步求出最优解而忽略中间的寻优路径和步骤。在因素势优化中,最终的解是相对渺茫和次要的,眼前第一步该怎么走?寻优的途径是什么?却是更现实更加关注的问题。
7. 时空因素及动态概念
物理分子运动的时空是因素空间。对于信息处理和思维过程来说,时间是不可脱离的最基本的因素。一切事物都在运动,人类认知的本领不在静物而在动态识别。有时间参与的动态曲线都离不开频域的变换。更多的数学工具才能用上。
8. 因素空间的拓扑结构
人有形象思维,不仅艺术家有,数学家也有,他们认为在从事数学研究的时候,形象思维比逻辑推理还重要。这种形象究竟是什么呢?心理学家有初步解释。欧阳合教授认为,因素空间应当引入某种拓扑结构来捕捉思维的形象。他用代数拓扑对因素空间提出了深刻的见解。
9. 因素库的不确定性
因素库中数据是否具有不确定性?这要看数据的来源和用途。1. 若直接用在释义。且从数据向意义转化时所作的判断是确定性的,例如,有大胡子的必定是男子,没有悬念,这种释义叫做确定性释义。在多数定量学科的认知单元里所遇到的概念提取问题多属确定性释义。2. 若直接用在释义。且从数据向意义转化时所作的判断是不确定的,例如数据是‘27岁,性格老成’向‘青年’或‘中年’ 释义,这时就不好下判断了,具有不确定性,这种释义叫做不确定性释义。概念划分时所出现的不确定性,应当归于模糊性。在多数定性学科的认知单元里所遇到的,多是模糊性释义。模糊性是人脑思维的一大特点,善加利用模糊性可以高效率地传递信息。为了简单,我们现在先用经典集合论来建立因素空间的理论。下一步,我们要用模糊集合论来推广,从背景关系到概念,规则的提取都需模糊化,以适应模糊性释义的需要。3. 间接用在释义,采集是随机的,这种数据叫做随机性数据。必须动用概率统计方法。必须承认,至今在模式识别和分类等问题中有效的算法还是以概率统计方法为主。这是因为认知单元的识别方法还没有真正启动,上概念的属性描述没有被用上,在断层上孤立地依凭一组变量(不一定是一组单元因素),从而,确定性释义不见或少见。但是,即使认知识别的方法启动以后,任然要动用大量的随机数据,运用概率统计。而模糊性的处理也可转化为随机集,归根结底,也涉及概率统计方法。所以,概率统计方法仍然是因素库的重要支柱。
10.数据的同化问题(异构数据处理的统一框架)
按照徐宗本教授所说,这是大数据处理的一个难点。因素空间可以成为异构数据处理的统一框架。它既是描述一切事物的框架,就可以同时接纳图片,音响和文字等异构的数据。对它们的处理都集中在‘释义’二字上。根据任务的需求,从粗概念开始,先作大划分,逐步细化。遇到障碍,还可以用因素藤,把异构数据符号化,对它立一个档(子因素空间)悬挂起来。随时调用。在人们还没有找到异构数据的统一框架以前,不妨用因素空间作这样的调用和处理。
为了构建人机认知体的巨大工程,还需要做好两件事情:
11. 编制因素辞典
人机认知体由人机认知单元耦合而成。耦合的关键是要有一部因素词典。词典的编撰形式是:
上概念名称$\rightarrow$单元因素名称$\{f_1,\cdots,f_k; f_{k+1},\cdots,f_n\}$
其中,$f_1,\cdots,f_k$是主要因素,$f_{k+1},\cdots,f_n$是次要因素,都按提取概念的重要性排序。它们将被用作因素库的表头。
因素词典同样面临着词典学所存在的普遍问题。如何做到类别清晰,减少重复,避免冲突,是需要研究的问题。
另外一个难点是,同一上概念,在不同的时间,地点和不同群体的概念划分中若出现变异,则因素词典对此上概念的描写便过于粗糙。此时,表头还需加註。何时加?如何加?这都是麻烦事。
12. 建立因素库语言
人机认知体的功能是能输出智能信息。每一种智能信息都是回答一个问题。这些问题的形式不外乎:这是什么?为什么是这样?此事发生,将会引起什么后果?遇到此问题,该怎么办?什么是关键?怎样控制某变量? 如此等等,它们都是运用概念,进行判断和推理,以及基于判断和推理的其它思维过程。人机认知系统要求直接以自然语言来提出问题。我们所希望建立的语言,第一是方便用户,都能掌握,第二是包容性。这种语言不排斥其它任何语言,都要与之兼容。这才是最方便的语言。在这方面,范畴理论可能为不同语言之间的翻译提供重要工具。
三,近年的工作进展
以辽宁工程技术大学智能科学与数学研究院为基地,在中科院虚拟经济与数据科学研究中心的支持下,我们联合申请了一项国家自然科学基金委主任基金项目,进一步开展因素空间在数据科学的应用研究。其进展如下:
- 围绕任务1. 我们编写了基本算法1。给了结构化的数据样本, 用最少因素提取出基本概念半格。(有多个版本在竞争中锤炼)在形式概念分析及粗糙集中都有同一目的的算法。效果良好,尚待比较。
- 围绕任务 2. 我们编写了基本算法2。给了结构化的数据样本,用最少因素提取出从条件因素到结果因素的推理规则。(有多个版本在竞争中锤炼)在形式概念分析及粗糙集 和决策树中都有同一目的的算法。效果良好,尚待比较。
- 围绕任务 2 我们编写了基本算法3:给定背景样本R*,提取背景基样本B*。
- 围绕任务 2 我们正在编写基本算法4:给定背景基样本,面临一个新样本点,怎样调整背景基样本?
- 算法3,4在形式概念分析与粗糙集中都没有相应的论题,这是因素库所独有的方法。
- 围绕任务 2 我们正在编写基本算法5。给定背景样本R*,先压缩到背景基B*,再提取推理规则。以便验证背景基的信息内涵。
- 围绕任务 6 我们正在编写基本算法6:给定优化方向及一组线性约束,找出从给定点出发的前若干步的优化途径。在理论上解决了一个向量向多面之交投影的问题。
- 后面诸项任务正在组织中。尤其是任务10,对非结构化数据进行处理。值得一提的是:围绕任务3,4,5,李洪兴,刘增良,罗承忠,袁学海,苏秀雯等在上世纪末写了相当数量的论文,对我们的后续工作有重要帮助。
四、人机认知体的构建
什么是人机认知体?人机认知体是带着一定目的,有一定认知功能,接受网络信息,并有人参与的对所在系统进行监测、组织、管理、控制的软硬件系统。
无人机是一种人机认知体,它是为避免飞机驾驶员的伤亡对敌进行侦查打击的由软件驾驶的飞行器。它有识别地面目标和人物特征的认知功能,它的飞行计划要接受网络信息的调整,它的作战过程需要人的配合,它是硬体,但驾驶软件却是灵魂。
超市的收银机不是一个人机认知体,因为它只会收钱和记录交易,没有认知功能。但若把收银机的功能扩大,增加打印的信息,再把因素空间的几个基本算法放进去,自动提取与紧俏商品和顾客时尚有关的概念及因果推理规则,再由销售经理或专家及时来读取并掌控这些知识,对市场因素进行人为的分析,结合网络信息,知己知彼,改善经营,服务百姓,它就变成一个人机认知体了。超市如此,其它何尝不如此?现在,美国的大商家,大银行家早已在作运营机方面的盘算了,也可能还没有上升到人机认知体的高度。但实践比理念更重要,我们切不可观望,坐失良机!
无人机是一个比较极端的例子,它的自动化程度太高了,现成的识别和控制技术已经差不多够用了。多数人机认知体的自动化程度没这么高,需要智能描述和应用因素空间的地方就更多。例如社区管理,很多社区还没有什么硬件设备。这可是最需要建立康乐社区人机服务体系的地方。当前最需要做的是硬件设施。就像超市先要有收银机那样,先把社区的医疗,住房,水电气,幼儿园,学校,养老院,环境卫生,文化娱乐,邻里关系,治安消防等方面的信息网络分门别类地建立并联系起来。即使没有智能也不要小看,有了这个系统,就可以用因素空间的理论和方法扩充为各个认知单元,再由认知单元耦合成人机认知体。社区干部和居民是人机认知体的建设者和参与者,因素空间不单是一们数学,也是一种方法论,通俗地介绍给大家,遇到问题,就往因素上找原因,找出路,抓主要因素和因素间的转化。
人机认知体将有千千万万。按行业分,有各行业的人机认知机。按功能形态分有目标优化型的(如发展系统)和因素平衡型的(如安全系统)。无论怎样划分,有以下几条通则:
- 每一种专门的系统结构必定带有相应的概念结构。人机认知系统的认知单元若掌握了相关的概念结构,便达到了专家的水平。反之,就像专家系统必须有专家的特殊经验才能建立一样,只有掌握实际系统的概念结构,认知单元的概念描述才能建立起来。
- 每一个人机认知体都是在一定的环境中建立的,认知体的功能是要在环境因素和内在的结构因素之间寻机优化或维持平衡。结构是为适应功能的需求而产生,人机认知体的主动性表现在它力求调整自己的结构(内因)以适应环境(外因)。这一点是崔铁军所提出的观点。
- 每一个人机认知体,都吐纳着网络的信息流,它必须有吐故纳新的机制,否则便不能生存。因素空间的背景基的基本算法4,对于数据流中每一个新来的样本点,都要随时调整背景基,就是一种吐故纳新的机制。
- 在构建人机认知体的过程中,最难绕开的是数据的所有权问题。由于这个问题,人家有数据你却不能用。因素空间理论有一个重要特点就是,我们所用的数据不涉及人的隐私。我们只要因素空间上的属性分布,不需要问这些是谁身上的属性。 无隐私的数据是不应该当作私有财产或商品的,只有解决无隐私数据的使用权问题,才能快速实施人机认知体的构建。当然,这还需要从法律侧面上进行论证。
最后需要强调一点,人机认知体是自组织的生态系统。且看未来,成千上万的人机认知体即将迅速出现,渗透和影响到人类生活的方方面面。世界各大国之间将为人机认知体的发展而拼搏。这是一个不以人们意志为转移的客观现实。无法逃避避,只有积极营造。我们要想实现自己的强国梦,就必须集中优势兵力,在国家有关部门自上而下的组织和领导下,各行各业同心协力,从一个个小的认知单元做起,自下而上地开展一个构建人机认知体系的伟大工程。
2015年1月8日
因素空间理论在大数据中的应用——汪培庄