首页 > 代码库 > 第6章 物联网的数据处理

第6章 物联网的数据处理

6.1 物联网数据处理技术的基本概念

  

 6.1.1 物联网数据的特点

 

大规模存储系统的应用越来越广泛,存储容量也从以前的TB(Terabyte)级上升到PB(Petabyte)级甚至EB(Exabyte)级。随着存储系统规模不断增大,在大规模文件系统中,文件的数量高达几十亿个,在这种海量数据中查找和管理文件变得异常困难。 

由于搜索引擎技术的发展,在互联网的环境下查找信息很方便,而用户在存储系统中找到想要的信息比在互联网上查找信息更加困难。 

如今存储系统中的数据量的快速增长使得查找和管理文件异常的困难, 为了能够合理的管理这些不断增多的海量数据,不管是用户还是管理者都需要能够高效的获得文件的属性。 

元数据查询包含索引文件元数据,例如索引节点和一些扩展属性,能够帮助回答很多复杂查询问题。利用文件属性,元数据查询允许点查询、范围查询、top-k查询和聚集查询,这些使得复杂的、特定的查询变得简单。现存的系统一般都采用通用型的数据库管理系统(Database Management System,DBMS)来索引元数据,由于DBMS不能很好的适用于多维元数据的查询,查询效率非常低。

 

1.海量性

  在“绿野千传”森林监测项目中,最多可能涉及到部署在天目山实地的近1 000个传感器节点。假设每个传感器每分钟内仅传回1KB数据,则每天的数据量就达到了约1.4GB。如果传感网是部署在更为敏感的应用如智能电网、建筑监测等场合时,则要求传感器有着更高的数据传输率,每天的数据量可达TB(1TB=1024GB)以上。在未来,若是地球上的每个人、每件物品都能互联互通,其产生的数据量会更加令人瞠目结舌。

 

2.多态性

  物联网的应用包罗万象,物联网中的数据也令人眼花缭乱:  “绿野千传”这样的生态监测系统中包含温度、湿度、光照度、风力、风向、海拔高度、二氧化碳浓度等环境数据;多媒体传感网中会包含视频、音频等多媒体数据;用于火灾逃生的传感网甚至还包含与用户交换信息的结构化通信数据。数据的多态性必将带来处理数据的复杂性:①不同的网络导致数

据具有不同的格式,比如同样是温度,有的网络将其称为“温度”,有的网络将其称为“Temperature”,有的网络以摄氏度为单位,有的网络则以华氏度为单位;②不同的设备导致数据具有不同的精度,比如同样是测量环境中二氧化碳浓度,有些设备能达到0.1ppm的分辨率,而有些设备仅有1ppm的分辨率;③不同的测量时间、测量条件导致数据具有不同的值,物联网中物体的一个显著特征就在于其动态性,在同一个十字路口使用同样的传感器去测量行人流量,这个值会随着上下班高峰等时间条件而变化,也会随着温度、降雨情况等自然条件而变化,还会随着节假日、体育赛事等社会条件而变化。

 

3.关联性及语义性

  物联网中的数据绝对不是独立的。描述同一个实体的数据在时间上具有关联性;描述不同实体的数据在空间上具有关联性;描述实体的不同维度之间也具有关联性。不同的关联性组合会产生丰富的语义。比如说,部署在森林中的传感器测量的温度一直维持在30。C左右,忽然在某一时刻升高到了80。C,根据时间关联性可以推测,要么是该传感器发生了故障,么是周围环境发生了特殊变化。假设同时又发现周围的传感器温度都上升到了80。C以上,根据空间关联性可以推断附近有极大的可能发生了森林火灾;假设发现周围的传感器温度并没有上升,同时空气湿度远大于60%。根据维度的关联性,当空气湿度大于60%时,火不容易燃烧及蔓延,于是可以推断,这个传感器的温度测量装置很可能发生了故障。

 

(4)关联

    物联网中的数据之间不可能是相互独立的,一定存在着关联性。例如,VigilNet节点可以通过感知移动物体所产生的压力、振动、声音、音频、方位来区分目标是坦克还是其他。我们需要根据多个节点在同一个时刻感知到的目标物体数据,计算出目标的位置;根据不同时刻目标位置的变化,计算出目标行进的方向、速度与路线,以提供准确的报警信息。对于生态环境监控系统感知的数据,我们可能要比较同一个传感器节点在不同时间温度数据的变化,或者比较同一个时间不同位置传感器节点的湿度数据的变化。对于森林环境监测系统,如果同一个时间、不同节点传感器传送的温度值为15~18。C,那么我们可以判断这片森林情况是正常的。如果某个传感器节点传出的温度值为80℃,那么我们就要结合周边传感器传送的温度和空气湿度值,来判断是出现了火情,还是这个传感器节点发生故障。如果周边传感器传送出的温度和空气湿度值都正常,只有这个传感器报告的温度偏离太大,那么可以判断是这个传感器节点发生故障。如果周边的传感器传送的温度都在升高、湿度都在降低,那么就可以判断这片森林在这个时间、这个地点可能出现了火情。因此,物联网中的数据之间在空间、时间维度上存在着紧密的关联性。

    无线传感器网络节点需要完成环境感知、数据传输、协同工作的任务,所以在一段时间内就会产生大量的数据。但是采集数据不是组建物联网的根本目的,如果我们不能从大量数据中提取出有用的信息,那么采集的数据量越大,信息“垃圾”就越多。我们需要根据不同的物联网应用需求,深入研究物联网数据处理技术。

 

 

6.1.2物联网数据处理的关键技术

 

面对物联网数据海量、多态、动态与关联的特征,物联网的数据处理需要重点解决以下几个

 

关键技术。

 

    1.海量数据存储

 

    (1)物联网数据存储的重要性

    物联网海量数据的产生主要表现在两个方面:一是每一个传感器、RFID读写器在连续、

实时地产生着大量的数据;二是物联网中有数以亿计的物品,如现代物流中贴有RFID标签的商品在世界范围内流通,它们每时每刻都在产生着大量的数据。医疗监护系统中保存着与人生命安危相关的重要数据,智能电网系统中保存着影响一个国家与地区供电效率与安全性的数据,现代物流系统中保存着正在不同地区销售和运输物资的数据,而机场安防系统保存着机场敏感区域人员活动的数据,物联网数据的重要性远高于互联网中Web、聊天与游戏应用中的数据。因此,如何利用数据中心与云计算平台存储物联网的海量数据,如何充分地利用好物联网信息,同时又要实现对隐私的保护,这是物联网数据处理技术首先要面对的一个重要问题。

 

    (2)物联网数据存储的模式

    在物联网中,无线传感器网络的数据存储具有代表性。无线传感器网络存储监测数据的模式主要有两种:分布式存储与集中式存储。

    图    给出了分布式存储结构示意图。在分布式存储方式中,网络传感器节点分为三类:中继节点、存储节点与汇聚节点。其中,中继节点只能感知和传递数据,不能存储数据。存储节点除了能够感知和传递数据之外,还能够存储数据。中继节点采集到数据,它就向汇聚节点方向传送,如果下一个节点也是中继节点,那么中继节点继续转发数据,如果下一个节点是存储节点,那么数据就存储在存储节点之中。当汇聚节点接到一个查询命令时,该查询命令会分发到网络之中,存储节点负责回复查询结果,中继节点不参加查询回复过程。分布式存储结构的优点是:通常用户只会对某一部分数据感兴趣,因此数据查询过程限制在汇聚节点与存储节点范围内,可以减少不必要的大范围查询的通信量,以节约能量。不足之处是:一旦存储的数据量超过存储节点的能力,就会造成数据丢失;同时,存储节点本身能量消耗较大,一旦存储节点能量耗尽,就会导致网络不能正常工作。

    图    给出了集中式存储结构示意图。在集中式存储结构中不设存储节点,网络中所有感知的数据都发送到汇聚节点,查询也限制在汇聚节点。集中式存储结构的优点是:所有采集的数据都存储在计算和存储资源配置较高的汇聚节点,计算工作量较大的查询任务由汇聚节点承担,不需要分散到整个网络中的中继节点。不足之处是:由于所有数据都必须通过多跳的传感器节点多次转发,因此中继节点不能够保证转发数据不被丢失,不能够解决数据重复与冗余,以及数据转发过程的能量优化问题。海量数据的存储结构影响着物联网系统的可靠性与效率,因此在讨论物联网数据处理技术时必须研究海量数据的存储结构问题。

 

      

 

                      图   无线传感器网络数据存储结构图

2.数据融合

 

  针对物联网数据的多态性,我们需要研究基于多种传感器的数据融合技术,综合分析各种传感器的数据,从中提取有用的信息。

 

    关于数据融合技术的研究已经有很长的一段时间了。在第二次世界大战期间,多传感器数据融合技术就已经达到实用阶段。当时研究人员在高炮火控雷达上加装了光学测距系统,这种综合利用雷达与光学传感器等多种感知信息的方法,不仅提高了系统的测距精度,同时也大大提高了系统的抗干扰能力。由于当时没有先进的计算机技术的支持,数据的综合、比较与判断工作是由人工方式实现的。

    20世纪70年代,数据融合(Data Fusion)这个术语才正式出现。20世纪80年代初,有关

多传感器数据融合方面的文献还很少见到,但是到了80年代末,美国每一年要举行两个关于数据融合领域的会议。到了20世纪90年代初,美国和世界各国纷纷研制出多种军用的数据融合系统,同时出现了很多种关于数据关联、多目标跟踪、身份估计、状态估计的数据融合算法。数据融合已经成为数据处理的一个新的重要的分支。

在智能交通、工业控制、环境监控、精准农业、突发事件处置、智慧城市、智能电网等物联网应用系统中,必然要应用多种传感器去综合感知多种物理世界的信息,从中提取对于我们智慧处理物理世界问题有用的信息和知识,因此数据融合技术是物联网数据处理研究的重要内容之一。

 

  3.数据查询、搜索与数据挖掘

物联网环境中的感知数据具有实时性、周期性与不确定性等特点。从感知数据的查询方法

角度来看,目前的处理方法主要有:快照查询、连续查询、基于事件的查询、基于生命周期的查询与基于准确度的查询。在互联网环境中,Web搜索引擎已经成为网民查询各类信息的主要手段。传统的搜索引擎是通过搜索算法,在服务器、计算机上抓取人工生成的信息。然而在物联网环境中,由于各种感知手段获取的信息与传统的互联网信息共存,搜索引擎需要与各种智能的和非智能的物理对象密切结合,主动识别物理对象,获取有用的信息,这对于传统的搜索引擎技术是一个挑战。

    很多银行、企业、政府部门已经在数据库中存储了大量的数据。很多用户不再满足于查询、搜索与报表统计等简单的数据处理方式,而是希望从数据库中发现更有价值的信息,这就需要使用数据挖掘技术。数据挖掘是在大型数据库中发现、抽取隐藏的预言性信息的方法。它使用统计方法和人工智能方法找出普通数据查询中所忽视的数据隐含的趋势性的信息,用户可以利用数据挖掘技术从大量数据中提取有价值的信息。例如,银行管理人员可以从大量储户存取行为的数据中,提取不同收入群体、不同时间段、不同地区的规律性的活动与变化的信息,有针对性地开展新业务与新服务。大型商业与零售连锁店可以根据不同地区、不同时段、不同商品销售信息,应用数据挖掘技术寻找销售规律,有针对性地扩张销售业务。数据挖掘是物联网数据处理中一个重要的方法。

 

    4.智能决策

    发展物联网的最终目标不是简单地将物与物互联,而是要催生很多具有“计算、通信、控制、协同和自治”特征的智能设备与系统,实现实时感知、动态控制和智能服务。

    在人类整个活动中,感知、通信、计算、智能、控制构成了一个完整的行为过程。“智能”是运用信息、提炼知识、生成策略、认识问题和解决问题的能力,同时“智能”又是生命体的能力标志,是人类生成发展能力的最高体现。人类通过眼、耳、鼻、舌j皮肤去感知外部世界,获取信息;通过神经系统将感知的信号传递到大脑;大脑通过分析、比对,从表象的信息中提炼出相应的知识,升华为处理问题的智能策略;最终大脑将智能策略变化为智能行为,形成“智慧”地处理问题的能力。从感知、通信、计算到提炼出知识,再到形成智能策略的过程叫做智能决策。智能决策是物联网信息处理技术中追求的最重要的目标。

 

 

 

 

 

6.2 海量数据存储技术

 6.2.1物联网对海量数据存储的需求

物联网的海量数据除了来自传感器节点、RFID节点以及其他各种智能终端设备每时每刻所产生的数据之外,各种物理对象在参与物联网事务处理的过程中也会产生大量的数据。例如,车载网在运行过程中,所有高速公路上行驶的汽车会随时接收不同路段的路况信息、天气信息,来决定自身车辆不同时刻的行驶速度、路线等。同时,每一辆车所做出的任何决定又会影响其他车辆的判断与决策。虽然每辆车自身有一定的数据存储与处理能力,但是大量的数据必须传送到智能交通控制中心,使用数据挖掘与分析工具,调用相关的模型与算法,利用计算能力很强的超级并行计算机,来对获取的数据进行分析、汇总与计算,根据数据地域、时问、对象的不同,提供决策支持与服务。因此,物联网的海量数据的存储需要数据库、数据仓库、网络存储、数据中心与云存储技术的支持。

 

6.2.2数据库技术

1.数据库的基本概念

 

  数据库技术是计算机技术中发展速度快、应用范围广的领域之一。数据库技术经过几十年

的发展,其应用已遍及各个领域,成为支撑2l世纪信息化社会的核心技术之一。同时,物联网的数据存储与管理需要使用数据库技术,物联网的海量数据存储与管理需求也会进一步促进数据库技术的发展。

    早期的数据管理是采用文件系统来实现的,用户可以通过操作系统按文件名对文件进行检索、读取、写入和处理等操作。用这种方式编写应用程序很不方便,而且不能使数据独立于程序,文件结构的变更将导致应用程序也进行相应的修改。针对文件系统的不足,人们提出了以统一管理和共享数据为主要特征的数据库(Data Base,DB)与数据库管理系统(Data Base Manage.ment System,DBMS)的概念。在数据库系统中,大量的、互相关联的数据存储在数据库中,这些数据由数据库管理系统来进行统一的管理,并可以被多个应用程序所共享。

    数据库系统由数据库、数据库管理系统、数据库管理员、数据库应用程序以及用户五个部分组成。这五个组成部分的功能可概述如下:

    1)数据库是统一管理的相关数据的集合。这些数据以一定的结构存放在存储介质中(一般是存储在磁盘中),数据能够为各种用户共享、具有最小冗余度,数据相对程序具有独立性,由数据库管理系统统一管理和控制。

    2)数据库管理系统是对数据库进行管理的软件,是数据库系统的核心。数据库管理系统位于用户与操作系统之问,为用户或应用程序提供访问数据库的方法,包括数据库的建立、更新、查询、统计、显示、打印及各种数据控制。

    3)数据库管理员是对数据库进行规划、设计、协调、维护和管理的工作人员,其主要职责是决定数据库的结构和信息内容、决定数据库的存储结构和存取策略、定义数据库的安全性要求和完整性约束条件以及监控数据库的使用与运行。

    4)数据库应用程序是使用数据库语言开发的、能够满足数据处理需求的应用程序。

    5)用户可以通过数据库管理系统直接操纵数据库,或者通过数据库应用程序来操纵数据库。

 

    2.数据库管理系统的类型

    由于所采用的数据模型不同,数据库管理系统可分成多种类型,包括层次数据库、网状数据库、关系数据库以及面向对象数据库等。

    1)层次数据库:层次数据库采用层次数据模型,即使用树形结构来表示数据库中的记录及其联系。典型的层次数据库系统有IBM公司的IMS和SAS公司的System 2000等。

    2)网状数据库:网状数据库是导航式数据库,用户在操作数据库时不但要说明做什么,还要说明怎么做。例如,在查找语句中不但要说明查找的对象,而且要规定存取路径。世界上第一个网状数据库管理系统是IDS(Integrated Data Store)系统,它是在1964年开发的。20世纪70年代,曾经出现过大量的网状数据库产品。在关系数据库出现之前,网状数据库应用得比层次数据库更普遍。在数据库发展史上,网状数据库占有重要地位。

    3)关系数据库:1970年,IBM研究员E.F.Codd与他的研究团队发表了一系列关于关系数据库(Relational Database)的论文,提出了数据库逻辑结构与物理存储结构分离的共享关系模型,以及数据库结构化查询语言(Structured Query Language,SQL)的概念、方法,奠定了关系数据库的理论基础。在关系数据库中,文件之问是相互关联的,如果一个文件中的数据发生变化,那么这种变化会自动地反映到其他文件中。关系数据库概念一经推出就受到学术界和产业界的高度重视,也迅速体现到数据库产品上。

    20世纪80年代以来,计算机厂商推出的数据库管理系统几乎都支持关系模型。典型的关系数据库系统有Oracle、Sybase、Informix,以及IBM公司的DB2。在个人计算机中广泛使用的关系数据库有SQL Server、Access、Delphi等。

    随着数据库技术的发展,数据库用户界面变得更加简单,功能更加强大和智能。未来的数据库技术必然会与人工智能技术相互交叉融合。

 

6.2.3物联网数据管理技术

1.问题的提出

    关系数据库为物联网海量数据的管理提供了重要的理论、工具与方法。在物联网中有两

大类重要的应用,一是基于RFID标签自动识别技术的应用,另一类是基于无线传感器网络的应用。在设计一个基于RFID标签自动识别技术的零售业或物流业应用时,对于由RFID所产生的数据的管理和处理方法与传统的互联网应用有很多相似之处,目前广泛应用的关系数据库Oracle、Sybase、Informix与DB2可以很好地用于这样的系统之中。但是,基于无线传感器网络的物联网应用有它的特殊性,需要研究对无线传感器网络的数据进行管理与处理的方法。

    无线传感器网络数据管理技术的研究目的是:将无线传感器网络上的数据管理方法与网络的物理实现方法分离开来,使得无线传感器网络的用户和应用程序只需要关心查询数据的逻辑结构,而无须关心无线传感器网络获取数据的细节。

    在实际应用中,应用程序通过对无线传感器网络所获取的感知数据进行查询和分析,可以有效地对它所关心的环境进行监测。无线传感器网络产生的数据通常包括两类:一类是静态数据,如描述传感器特性的数据;另一类是动态数据,即由传感器感知的环境数据。由这些感知数据构成的数据集合类似于大型分布式数据库,需要通过一个无线传感器网络数据管理系统软件来系统管理。无线传感器网络数据管理系统与传统的数据库系统有着很大的差异。这些差异主要表现在以下几个方面:

    1)传统的数据库系统的支撑环境是计算机网络,数据库系统可以独立完成对数据库的查询和处理,不需要关心计算机网络是如何实现分布式进程通信的。而在无线传感器网络环境中,每个传感器节点只有非常有限的存储容量、计算能力和电池能量,传感器节点随时都有可能失效。与无线传感器网络的路由协议、访问控制协议和安全技术的研究一样,数据管理系统的研究必然要受到节点的能源、通信链路、计算和存储资源的限制。这是无线传感器网络数据管理系统与传统的分布式数据库系统最大的不同。

    2)无线传感器网络一般不采用将每个传感器的感知数据都传送到中央处理节点,进行集中的分析和处理的方式,而是尽可能在无线传感器网络内部采取一定的控制机制与方法,将数据融合之后再传输,达到尽可能减少节点传输的数据量的目的。

    3)无线传感器网络的节点因为电能耗尽等原因而失效,剩余的节点将按照自组网的思路重新构建网络。由于网络的重组引起的拓扑变化,基于节点能量控制的路由算法也会使数据源、数据传输路径、数据融合产生变化,这是传统基于互联网的应用不会出现的情况。无线传感器网络的数据管理系统必须能够适应这些变化,向用户屏蔽因为网络拓扑、路由变化带来的问题,体现无线传感器网络以“数据为中心”的设计理念。

    4)对于无线传感器网络数据主要有两类查询。第一类查询是连续查询。其特点是:查询固定、数据不固定。例如,为了查找城市中心区域交通路口闯红灯的情况,需要通过软件一直查询图像数据库,执行“找出所有闯红灯的车辆的视频”的指令。这种查询要在用户指定的时间范围内,持续不断地监测无线传感器网络的状态。传统数据库管理系统不具有无线传感器网络所需要的持续查询能力。第二类查询是用于查询无线传感器网络当前状态的快照查询。快照查询的特点是:查询不固定、数据不固定。例如,在智能交通应用中.查询“当前A路口信号灯是红灯吗?”“下午5点30分时B区哪个路口等待通过的车辆最多?”等。由于无线传感器网络资源有限,系统必须在查询结果的精度和查询消耗的资源这两方面做出权衡。假设在一个地区配置N个测量温度的传感器,为了精确计算该地区的平均温度,需要获得全部N个传感器的数据并进行集中处理。这将消耗大量的电能与计算资源。在无线传感器网络中,可以通过随机抽样的办法,在满足用户精度要求的前提下,只计算M(M<N)个传感器的数据的平均值,这样可以大大减少资源的消耗。无线传感器网络数据的查询策略必须适应最小化能源消耗与网络拓扑的变化。

    正是由于无线传感器网络的数据管理具有特殊性,因此我们必须针对无线传感器网络的应用需求,研究无线传感器网络数据管理系统的结构、数据模型和查询语言、数据存储与索引技术、数据查询处理技术。

 

    2.无线传感器网络数据管理系统结构

    目前,无线传感器网络数据管理系统结构主要有四种:集中式结构、半分布式结构、分布式结构和层次式结构。

 

    (1)集中式结构

    在集中式结构中,数据查询和无线传感器网络内部的感知数据传输是分开的。在这种结构中,节点首先将感知数据按事先指定的方式,通过无线传感器网络传输到中心服务器,数据统一由中心服务器进行处理。这种方法很简单,但是中心服务器会成为系统性能的瓶颈,而且容错性很差。另外,由于所有传感器的数据都要求传送到中心服务器,通信开销很大。

 

  (2)分布式结构

  分布式结构是建立在所有传感器节点都具有很强的通信、存储与处理能力,每个节点都具

有独立处理数据查询命令的能力的基础上的。

 

  (3)半分布式结构

  由于传感器节点具有一定的计算和存储能力,节点可以对原始数据进行一定的处理,因此

 

可以采用大量分布式传感器节点将数据发送到多个中间处理节点的思路,设计出分布与集中相结合的半分布式结构数据管理系统。

 

  (4)层次结构

图    给出了无线传感器网络数据管理系统的层次结构。它可以分为两个层次:无线传感器网络层和代理网络层。在无线传感器网络层,每个传感器节点都具有一定的计算和存储能力,可以完成接收命令、本地计算、数据传送等工作。代理网络层的节点具有更强的存储、计算和通信能力。每个代理节点完成以下操作:接受系统用户的查询命令、向传感器节点发送控制命令或其他信息、从传感器节点接收数据、处理查询、将查询结果返回给用户。代理节点收到来自传感器节点的数据之后,多个代理节点分别进行查询并将结果返回用户。

 

 

                                       图   无线传感器网络数据管理系统层析结构                                   

3.典型的无线传感器网络数据管理系统

 

    根据无线传感器网络的特点,目前大多数的数据管理研究集中在半分布式结构。典型

的研究成果有美国加州伯克利分校(UC Berkeley)的Fjord系统与康莱尔(Cornell)大学的

Cougar系统。

 

(1)Fjord系统

    Fjord系统是Telegraph项目的一部分,它是一种自适应的数据流系统。Fjord系统主要有以下几个特点:

1)Fjord结构主要由自适应的查询处理引擎和传感器代理两部分构成。

2)Fjord基于流数据计算模型处理查询。对感知数据的查询处理采用Push技术,而对非感

知数据的查询处理采取Pull技术。因此,Fjord系统的查询处理引擎同时采用了Push和Pull

技术。

    3)Fjord考虑了根据计算环境的变化动态调整查询执行计划的问题。

    在Fjord系统中,传感器代理是传感器节点和查询处理器之间的接口。传感器节点需要将感知数据传送给传感器代理,传感器代理将数据发送到查询处理器。传感器代理可以让传感器节点按事先指定的方式,例如对感知数据执行聚集操作,来进行一定的本地计算。传感器代理动态监测传感器节点,估计用户的需求与电源的能量状况,动态调整传感器节点的采样频率和传输率,延长传感器节点的寿命并提高处理性能。

 

    (2)Cougar系统

Cougar系统的设计思想是:尽可能使查询处理在无线传感器网络内部进行,以减少通信开

销。Cougar系统与Fjord的不同主要体现在:

    1)Cougar系统的传感器节点不仅需要处理本地的数据,同时还要与邻近的节点进行通信,

协作完成查询处理的某些任务。

 

    2)在查询处理过程中,只有与查询相关的数据才从无线传感器网络中被提取出来。

    4.无线传感器网络数据模型的研究

    目前,研究人员对无线传感器网络数据模型的研究主要采用两种思路:一种是将感知数据看做是分布式数据库,另一种是将无线传感器网络看做是由多个分布式数据流组成的分布式数据库系统。同时,有些研究涉及感知数据的时间特性和不确定性的时间序列以及概率模型表示方法。在数据模型研究方面具有代表性的是UC Berkeley的TinyDB系统和Comell的Cougar系统。

 

(1)TinyDB系统

 

    TinyDB系统由3个部分组成:TinyDB客户端、                                         

TinyDB服务器与无线传感器网络。客户端可以通过基于Java的应用程序接口(客户端API)访问Tiny—DB系统。每个传感器节点都安装和运行TinyDB无线传感器网络软件TinyDB QP。支持TinyDB系统运行的是TinyOS操作系统。图8—4给出了TinyDB系统的结构示意图。

TinyDB客户端软件包括:类似于SQL的查询语言Tiny SQL与Java应用程序。Java应用程序提供的服务包括:构造查询请求、解析查询结果、提供图形界面、显示查询处理结果与动态网络拓扑。Tiny-DB QP包括传

感器节点目录、模式管理器、查询处理器、      图   TinyDB系统的结构

存储管理器、网络拓扑管理器。

TinyDB系统的数据模型是对传统的关系模型的简单扩展。它将无线传感器网络数据定义为虚拟关系表。该表具有两类属性。第一类属性是感知数据属性,例如电压值、温度值等;第二类属性是描述感知数据的属性,例如传感器节点的节点号ID、感知数据获得的时间、感知数据的数据类型,以及感知数据的度量单位等,它们是通过光、声、电压、温度、湿度传感器获取的。每个传感器节点产生的数据对应关系表中的一行。因此,这个虚拟关系表可看成是一个数据流。对无线传感器网络数据的查询就是对这个虚拟关系表的查询。虚拟关系表上的操作集合是在传统的关系代数操作上进行了扩展。

 

表给出了一个TinyDB关系表结构。

 

(2)Cougar系统

 

    Cougar系统的原理是将一个无线传感器网络看做一种分布式数据库,每个传感器对应于分布式数据库中的一个节点。每个传感器节点只存储部分的数据,并尽可能将必要的数据处理放在本地节点进行,而不是将所有数据都传送到中心节点集中处理。在这个方案中,必须权衡节点处理的开销与数据传输的消耗,尽量减少数据传输对节点能量的消耗,以延长无线传感器网络的寿命。Cougar系统也提出了一种类似于SQL的查询语言,它在提供周期性、连续查询服务方面比较有特色。

 

 

6.3 物联网数据融合技术

 

6.3.1无线传感器网络数据融合技术

无线传感器网络的数据融合技术可以结合网络的各个协议层来进行。在应用层,可通过分布式数据库技术,对采集的数据进行初步筛选,达到融合效果;在网络层,可以结合路由协议,减少数据的传输量;在数据链路层,可以结合MAC,减少MAC层的发送冲突和头部开销,

达到节省能量目的的同时,还不失去信息的完整性。无线传感器网络的数据融合技术只有面

向应用需求的设计,才会真正得到广泛的应用。

 

 

应用层和网络层的结合

 

无线传感器网络通常具有以数据为中心的特点,因此应用层的数据融合需要考虑以下因素:无线传感器网络能够实现多任务请求,应用层应当提供方便和灵活的查询提交手段;应用

层应当为用户提供一个屏蔽底层操作的用户接口,用户使用时无须改变原来的操作习惯,也不必关心数据是如何采集上来的;由于节点通信代价高于节点本地计算的代价,应用层的数据形式应当有利于网内的计算处理,减少通信的数据量和减小能耗。

从网络层来看,数据融合通常和路由的方式有关,例如以地址为中心的路由方式(最短路

径转发路由),路由并不需要考虑数据的融合。然而,以数据为中心的路由方式,源节点并不是各自寻找最短路径路由数据,而是需要在中间节点进行数据融合,然后再继续转发数据。如图       所示,这里给出了两种不同路由方式的对比。

 

.                            

                            图  网络层数据融合方式

网络层数据融合的关键就是数据融合树(Aggregation Tree)的构造。在无线传感器网络中,基站或汇聚节点收集数据时是通过反向组播树的形式从分散的传感器节点将数据逐步汇聚起来的。当各个传感器节点监测到突发事件时,传输数据的路径形成一棵反向组播树,这个树就成为数据融合树。无线传感器网络就是通过融合树来报告监测到的事件的,如图     所示。

 

 

                            图  利用数据融合树来报告监测事件

 

数据融合树的构造算法

 

  (1)以最近源节点为中-Il‘(Center at Nearest Source,CNS)  以离基站或汇聚节点最近的源节点充当融合中心节点,所有其他的数据源将数据发送到该节点,然后由该节点将融合后的

数据发送给基站或汇聚节点。一旦确定了融合中心节点,融合树就基本确定下来了。

(2)最短路径树(Shortest Paths Tree,SPT)  每个源节点都各自沿着到达基站或汇聚节

点最短的路径传输数据,这些来自不同源节点的最短路径可能交叉,汇集在一起就形成了融合树。交叉处的中间节点都进行数据融合。当所有源节点各自的最短路径确立时,融合树就基本形成了。

    (3)贪婪增长树(Greedy Incremental Tree,GIT)这种算法中的融合树是依次建立的。先确定树的主干,再逐步添加枝叶。最初,贪婪增长树只有基站或汇聚节点与距离它最近的节点存在一条最短路径。然后每次都从前面剩下的源节点中选出距离贪婪增长树最近的节点连接到树上,直到所有节点都连接到树上。 

    上面三种算法都比较适合基于事件驱动的无线传感器网络的应用,可以在远程数据传输

前进行数据融合处理,从而减少冗余数据的传输量。在数据的可融合程度一定的情况下,上面三种算法的节能效率通常为:GIT最高,SPT次之,CNS最低。当基站或汇聚节点与传感器覆盖监测区域距离的远近不同时,可能会造成上面算法节能的一些差异。

 

独立的数据融合协议层

 

无论是与应用层还是网络层相结合的数据融合技术都存在一些不足之处:为了实现跨协议层理解和交互数据,必须对数据进行命名,采用命名机制会导致来自同一源节点不同数据类型的数据之间不能融合;打破传统各网络协议层的独立完整性,上下层协议不能完全透明;采

用网内融合处理,可能具有较高的数据融合程度,但会导致信息丢失过多。

    独立于应用的数据融合机制(Application Independent Data Aggregation,AⅢIA),其核心

思想就是根据下一跳地址进行多个数据单元的合并融合,通过减少数据封装头部的开销,以及减少MAC层的发送冲突来达到节省能量的效果。AIDA并不关心数据内容是什么,提出的背景主要是为了避免依赖于应用的数据融合(Application Dependent Data Aggregation,j心

DA)的弊端,另外还可以增强数据融合对网络负载的适应性。当负载较轻时,不进行融合或进行低程度的融合;负载较高或MAC层冲突较重时,进行较高程度的数据融合。如图   所

 

示,AIDA的基本功能构件主要分为两大部分:一个是网络分组的汇聚融合及取消汇聚融合功能单元,另外一个是汇聚融合控制单元。前者主要是负责对数据包的融合和解融合操作,后者是负责根据链路的忙闲状态控制融合操作的进行,调整融合的程度(合并的最大分组数)。

 

 

 

                             图  AIDA 基本构建

 

在介绍AIDA的工作流程之前,比较一下数据融合不同方法的几种结构设计。传统的ADDA存在网络层和应用层间的跨层设计,而AIDA是增加了独立的界于MAC层和网络层之间的数据融合协议层。前面提到过分层和跨层数据融合各有利弊。当然,也可以将AIDA和ADDA综合起来应用,如图      所示。AIDA的提出就是为了适应网络负载的变化,可以独立于其他协议层进行数据融合,能够保证在不降低信息的完整性和不降低网络端到端延迟的前提下,减轻MAC层的拥塞冲突,降低能量的消耗。

    AIDA的工作流程主要包括以下两个方向的操作:发送和接收。

(1)发送主要是指从网络层到MAC层的操作,网络层发来的数据分组进入汇聚融合池,AIDA功能单元根据要求的融合程度,将下一跳地址相同的网络单元(数据)合并成一个AIDA单元,并送到MAC层进行传输。何时调用融合功能单元以及融合程度的确定都由融合控制单元来决定。

      (2)接收主要是从MAC层到网络层,将MAC层送上来的AIDA单元拆散为原来的网

络层分组单元并送交给网络层。这样可以保证协议的模块性,并允许网络层对每个数据分组

可以重新路由。  

 

 

 

 

 

 

 

 

 

                        图  数据融合不同方式的几种结构设计

 

6.3.2数据融合的分类

 

传感器网络中的数据融合技术可以从不同的角度进行分类,这里介绍i种分类方法:依据融合前后数据的信息含量分类;依据数据融合与应用层数据语义的关系分类;依据融合操作的级别进行分类。

 

根据融合前后数据的信息含量划分

 

根据数据进行融合操作前后的信息含量,可以将数据融合分为无损失融合(10ssless

aggregation)和有损失融合(10ssy aggregation)两类。

 

    1.无损失融合

    无损失融合中,所有的细节信息均被保留。此类融合的常见做法是去除信息中的冗余部分。根据信息理论,在无损失融合中,信息整体缩减的大小受到其熵值的限制。

    将多个数据分组打包成一个数据分组,而不改变各个分组所携带的数据内容的方法于无损失融合。这种方法只是缩减了分组头部的数据和为传输多个分组而需要的传输控制开销,而保留了全部数据信息。

   时间戳融合是无损失融合的另一个例子。在远程监控应用中,传感器节点汇报的内容可能在时间属性上有一定的联系,可以使用一种更有效的表示手段融合多次汇报。比如一个节点以一个短时间间隔进行了多次汇报,每次汇报中除时间戳不同外,其他内容均相同;收到这些汇报的中间节点可以只传送时间戳最新的一次汇报,以表示在此时刻之前,被监测的事物都具有相同的属性。

 

  2.有损失融合

  有损失融合通常会省略一些细节信息或降低数据的质量,从而减少需要存储或传输的数据量,以达到节省存储资源或能量资源的目的。有损失融合中,信息损失的上限是要保留应用所需要的全部信息量。

 

    很多有损失融合都是针对数据收集的需求而进行网内处理的必然结果。比如温度监测应用中,需要查询某一区域范围内的平均温度或最低、最高温度时,网内处理将对各个传感器节点所报告的数据进行运算,并只将结果数据报告给查询者。从信息含量角度看,这份结果数据相对于传感器节点所报告的原始数据来说,损失了绝大部分的信息,仅能满足数据收集者的要求。

 

根据数据融合与应用层数据语义之间的关系划分

 

数据融合技术可以在传感器网络协议栈的多个层次中实现,既可以在MAC协议中实现,也可以在路由协议或应用层协议中实现。根据数据融合是否基于应用数据的语义,将数据融合技术分为三类:依赖于应用的数据融合(application dependent dataaggregation,ADDA),独立于应用的数据融合(application independent data aggregation,AIDA),以及结合以上两种技术的数据融合。

 

1.依赖于应用的数据融合

    通常数据融合都是对应用层数据进行的,即数据融合需要了解应用数据的语义。从实现角度看,数据融合如果在应用层实现,则与应用数据之间没有语义间隔,可以直接对应用数据进行融合;如果在网络层实现,则需要跨协议层理解应用层数据的含义,如图   (b)所示。

 

 

 

                        图  数据融合根据与网络层的关系的分类

 

ADDA技术可以根据应用需求获得最大限度的数据压缩,但可能导致结果数据中损失的信息过多。另外,融合带来的跨层理解语义问题给协议栈的实现带来困难。

 

2.独立于应用的数据融合

    鉴于ADDA的语义相关性问题,有人提出独立于应用的数据融合。这种融合技术不需要了解应用层数据的语义,直接对数据链路层的数据包进行融合。例如,将多个数据包拼接成一个数据包进行转发。这种技术把数据融合作为独立的层次实现,简化了各层之间的关系。如图      (c)中所示,AIDA作为一个独立的层次处于网络层与MAC层之间。

AIDA保持了网络协议层的独立性,不对应用层数据进行处理,从而不会导致信息丢失,但是数据融合效率没有ADDA高。

 

3.结合以上两种技术的数据融合

    这种方式结合了上面两种技术的优点,同时保留AIDA层次和其他协议层内的数据融合技术,因此可以综合使用多种机制得到更符合应用需求的融合效果。其协议层次如图    (d)所示。

 

根据融合操作的级别划分.

 

根据对传感器数据的操作级别,可将数据融合技术分为以下三类:

    (1)数据级融合。数据级融合是最底层的融合,操作对象是传感器通过采集得到能数据,因此是面向数据的融合。这类融合大多数情况下仅依赖于传感器类型,不依赖于用户需求。在目标识别的应用中,数据级融合即为像素级融合,进行的操作包括对像素数据进行分类或组合,去除图像中的冗余信息等。

    (2)特征级融合。特征级融合通过一些特征提取手段将数据表示为一系列的特征向量,以反映事物的属性,是面向监测对象特征的融合。比如在温度监测应用中,特征级融合可以对温度传感器数据进行综合,表示成(地区范围,最高温度,最低温度)的形式;在目标监测应用中,特征级融合可以将图像的颜色特征表示成RGB值。

    (3)决策级融合。决策级融合根据应用需求进行较高级的决策,是最高级的融合。决策级融合的操作可以依据特征级融合提取的数据特征,对监测对象进行判别、分类,并通过简单的逻辑运算,执行满足应用需求的决策。因此,决策级融合是面向应用的融合。比如在灾难监测应用中,决策级融合可能需要综合多种类型的传感器信息,包括温度、湿度或震动等,进而对是否发生了灾难事故进行判断;在目标监测应用中,决策级融合需要综合监测目标的颜色特征和轮廓特征,对目标进行识别,最终只传输识别结果。

    在传感器网络的实现中,这三个层次的融合技术可以根据应用的特点综合运用。比如有的应用场合传感器数据的形式比较简单,不需要进行较低层的数据级融合,而需要提供灵活的特征级融合手段;而有的应用要处理大量的原始数据,需要有强大的数据级融合功能。

 

6.4 物联网中的智能决策

 

6.4.1数据挖掘的基本概念

 

我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。在美国,广播达到5000万户用了38年;电视用了13年;Internet拨号上网达到5000万户仅用了4年。

    《纽约时报》由20世纪60年代的i0~20版扩张至现在的i00~200版,最高曾达1572版;《北京青年报》也已是16~40版;《市场营销报》已达100版。然而在现实社会中,人均日阅读时间通常为30~45分钟,只能浏览一份24版的报纸。大量信息在给人们带来方便

的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三

是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口

号:“要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用

的知识、提高信息利用率?”

    面对这一挑战,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。Usama

Fayyad是数据挖掘的开山祖师,1987年就读密西根大学时参加GM的暑期工作,目的是从

数以千万计的维修记录中找出规则,协助维修人员迅速发现问题。Fayyad发现的模式识别

算法,不但成为他1991年论文的主题,也衍生出后来数据挖掘技术的发展。离开密西根后,

Fayyad加入NASA的喷射推进实验室。他的算法在太空探测、地质研究等工作中均展现

出了非常惊人的潜力。现在连美国军方也开始应用这样的技术来增强雷达解读与识别数据

的能力。

    另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数

据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的

分析,以便更好地利用这些数据。第7章讲到的数据库系统可以高效地实现数据的录入、查

询、统计等功能,但难以发现数据中存在的关系和规则,无法根据现有的数据预测未来的发

展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象,如

图         所示。

 

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。随着海量数据搜集,高性能计算和数据挖掘算法的逐步成熟,现在数据挖掘技术在商业应用中已经得到了广泛应用。

 

 

 

                           图  信息爆炸的时代 

 

从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的。从表   中可以看到,第四步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。

 

 

 

 

 

 

 

 

 

 

                          表    数据挖掘的进化历程

 

 

 

 

数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进人了实用的阶段。一个典型的数据挖掘系统如图      所示。

 

 

 

                  图   典型的数据挖掘系统

 

 

(1)数据

    我们经常说“水的温度是100℃,礼物的重量是500克,木头的长度是2米,大楼的高度100层”。通过水、温度、100℃、礼物、重量、500克、木头、长度、2米、大楼、高度、100层这些关键词,我们的大脑里就形成了对客观世界的印象。这些约定俗成的字符或关键词就构成了我们探讨的数据基础,我们提到关键词必须是人们约定俗成的。这就表示不同阶级、不同宗教、不同国家的人对于关键词的约定必然会有差异。由此,我们可以推导出数据其实也具有一个使用范围。不同领域的人在描述同一事物会出现不同的数据。例如,中国人会称每个星期的最后一天为“星期天”;美国人会把这一天叫做“Sunday”;而基督教徒会称这一天为“礼拜天”。数据的有范围性导致由此建立的信息世界,知识世界在不同的国家,不同的宗教,不同的阶级中会产生差异。认识到数据的有范围性可以帮助我们在一个领域进行知识管理时,首先要统一关键词或数据的约定

    因此,对数据可以进行这样的描述:数据是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示,以适合在这个领域中用人工或自然的方式进行保存、传递和处理。

 

    (2)信息

    作为知识层次中的中间层,有一点可以确认,那就是信息必然来源于数据并高于数据。我们知道像7℃、50米、300吨、大楼、桥梁这些数据是没有联系的、孤立的。只有当这些数据用来描述一个客观事物和客观事物的关系,形成有逻辑的数据流,它们才能被称为信息。除此之外,信息事实上还包括有一个非常重要的特性——时效性。例如,新闻说北京气温922,这个信息对我们是无意义的。它必须加上今天或明天北京气温9。C。再例如,通告说,在会议室三楼开会,这个信息也是无意义的,他必须告诉我们是哪天的几点钟在会议室三楼开会。

    注意信息的时效性对于我们使用和传递信息有重要的意义。它提醒我们失去信息的时效性,信息就不是完整的信息,甚至会变成毫无意义的数据流。所以我们认为信息是具有时效性的有一定含义的、有逻辑的、经过加工处理的、对决策有价值的数据流。

 

    (3)知识

    信息虽给出了数据中一些有一定意义的东西,但它的价值往往会在时间效用失效后开始衰减,只有通过归纳、演绎、比较等手段对信息进行挖掘,使其有价值的部分沉淀下来,并于已存在的人类知识体系相结合,这部分有价值的信息就转变成知识。例如。北京7月1日,气温为30℃。在12月1日气温为3"C。这些信息一般会在时效性消失后,变得没有价值,但当人们对这些信息进行归纳和对比就会发现北京每年的7月气温会比较高,12月气温比较低,于是总结出一年有春夏秋冬四个季节,因此我们认为知识就是沉淀并与已有人类知识库进行结构化的有价值信息。

 

    (4)智慧

    我们经常看到一个人满腹经纶,拥有很多知识,但不通世故,被称做书呆子。也会看到有些人只读过很少的书,却能力超群,能够解决棘手的问题。我们会认为后者具有更多的智慧。因此我们认为智慧是人类基于已有的知识,针对物质世界运动过程中产生的问题,根据获得的信息进行分析、对比、演绎,找出解决方案的能力。这种能力运用的结果是将信息的有价值部分挖掘出来并使之成为已有知识架构的一部分。

 

 

6.4.2数据挖掘的基本工作原理

 

数据挖掘的过程

 

数据挖掘的过程如图      所示。数据挖掘是一个反复迭代的人机交互与处理的过程。数据挖掘要经过数据预处理、数据挖掘、对挖掘结果评估与表示三个阶段。

 

 

 

                      图   数据挖掘过程

 

(1)数据预处理

数据预处理阶段主要完成以下4项任务:

1)数据准备:首先需要了解数据挖掘在该领域应用的相关情况与背景知识,确定用户需求

与总体目标。

    2)数据选取:根据用户需求,确定关注的目标数据,并从原始数据库中选取相关的数据或样本。

    3)数据预处理:进一步检查选取的数据的完整性与一致性,滤除与数据挖掘无关的冗余数据。根据时间顺序和意志的变化情况,利用统计等方法填充丢失的数据。

4)数据变换:根据知识发现的要求对预处理过的数据再进行处理,通过数据库的操作减少数据量。

(2)数据挖掘

    数据挖掘阶段主要完成以下三项任务:

    1)确定数据挖掘的目标:根据用户需求确定要发现的知识类型,为选择适合的数据挖掘算法提供依据。

    2)选择算法:根据确定的目标,从关联规则、分类、聚类、文本挖掘、时序模式挖掘等算法中选择合适的算法与模型。

 

    3)数据挖掘:使用选择的算法,从数据中提取用户感兴趣的知识。

 

    (3)对挖掘结果评估与表示

    对挖掘结果评估与表示阶段主要完成以下两项任务:

    1)知识评估:对数据挖掘产生的知识进行评估,剔除冗余和无用的知识。如果用户不满足挖掘的结果,可以返回到前面的步骤反复提取。

    2)知识表示:使用可视化技术,向用户展示所挖掘的知识。

 

    2.数据挖掘的类型与算法

    (1)数据挖掘的类型

    数据挖掘基本上可以分为两类:描述性挖掘和预测性挖掘。描述性挖掘用于刻画数据的特征,而预测性挖掘则要根据数据做出推断和预测。

 

    (2)描述性挖掘的算法

    描述性挖掘的算法主要有:关联分析、分类与聚类分析、离群点分析。

 

    关联分析是从数据中发现频繁出现的现象。例如,我们可以用关联分析的方法,从一家手机商场的数据中发现:购买新款智能手机的客户中35%是年龄在23~29岁的年轻人,其中的70%月收入在5000~8000元。

在数据集合中.可能发现右一衅数据与绝大多数麴棍的特征、樟型不相同.汶地点叫倘离群点。在数据挖掘时,人们一般会将这些点作为噪声、错误而丢弃。但是,在商业欺诈行为的自动检测中,这些离群点作为小概率事件往往比经常发生的事件更有挖掘价值。利用离群点分析方法可以根据购物地点、商品类型、金额与频率,挖掘出信用卡欺诈行为。在网络购物中,商业欺诈者往往会冒充正常的网络商城,但是它出售同一种物品价格往往低于正常价格很多,这一类离散的数据往往能够反映网购中的商业欺诈行为。在用于安全监控的无线传感器网络中可以根据离群点的数据来分析是否有危险人员潜入。离群点分析算法主要有基于统计、基于距离,以及基于偏移的方法。

 

    (3)预测性挖掘的算法

    预测性挖掘的算法主要包括分类和预测、演化分析。

    我们可以依据分类算法,对数据进行深度分析,以寻找隐藏在数据背后的许多有用的知识,预测未来的发展规律。例如,商场数据库数据中包括客户的姓名、年龄、职业、收入与信用记录信息,那么我们在年底促销寄产品资料时,可以将关于笔记本计算机、手机的资料寄给一部分客户,而将时装、名牌手表的资料寄给另一类客户。根据数据库中已有的信息,我们可以很容易地生成有不同潜在需求客户的名单,有针对性地宣传,可以减少工作量与费用,提高效率。

    演化分析是通过对关注对象的建模,挖掘随时间变化的数据对象的变化规律与趋势。例如,用于水环境监测的物联网系统,根据流域或地区的城市发展、工业与居民用水、污染源位置与治理情况,以及气候情况建立水环境的模型,结合历史与现实数据,分析水环境情况以及中长期的发展趋势,为决策提供科学依据。演化分析的关键是建模。与时间相关的演化分析方法主要包括趋势分析、相似分析、序列模型挖掘与周期分析。

 

 

6.4.3物联网与智能决策、智能控制

 

研究物联网的目的就是实现网络虚拟空间与现实社会物理空间的融合。在物联网中,所璃物理空间的对象,无论是智能的物体或者是非智能的物体,都可以参与到物联网的感知、通信

计算的全过程中。计算机在获取海量信息的基础上,通过对物理空间的建模和数据挖掘,提取对人类处理物理世界有用的知识。利用这些知识产生正确的控制策略,将策略传递到物理世界能执行设备,实现对物理世界问题的智能处理。这种从感知物理世界的原始信息,到人类处理物理世界问题的智能行为,这样一个从感知、通信、计算、知识、智能决策到智能控制的闭环过程。如图   所示。

 

 

 

 

                           图   感知、通信、计算、知识与智能决策关系

 

我们可以通过物联网在精准农业中应用的例子来说明物联网的上述闭环过程的作用。在精

准农业物联网应用中,通过埋在土壤中的传感器与空气中的温度、湿度、氧气、二氧化碳、土壤湿度与酸碱度等多种传感器,来监测农作物生长环境、土壤状态参数。这些数据通过网络传输到远程控制中心,使得工作人员能够及时、准确地掌握农作物生长环境与发展趋势。从大量历史数据中挖掘影响产量的主要因素,以及使产量达到最大化的最佳水、肥配比和控制的模型,研发可以用于农作物生长数据挖掘的作物生长的专家系统软件。依据专家系统软件,结合感知的作物实时的生长参数,分析农作物生长的现状,决定是不是应该浇灌、施肥。如果决定浇灌,那么远程控制中心可以通过网络将指令传送到田间的浇灌控制器,控制器将根据指令执行什么时间放水,放多少水。这样,物联网实现了精准农业中从感知、通信、计算、智能决策到智能控制的闭环过程,控制整个农作物生长的最佳状态,以最小的投入获取更高的收成,高效地利用各类农业资源,取得良好的经济效益与环境效益。

 

第6章 物联网的数据处理