首页 > 代码库 > DW2.0下一代数据仓库架构_第8章 数据模型和DW2.0(读书笔记)

DW2.0下一代数据仓库架构_第8章 数据模型和DW2.0(读书笔记)

智能线路图
    数据模型是DW2.0必备组成部分。数据模型在很多方面都扮演着通往DW2.0其他部分的只能线路图的角色。在DW2.0中建立线路图有很多种
原因,但最重要的原因是建立DW2.0并不是一蹴而就的,相反,每次建立一步,通过很长的时间完成,另外,它的建立是由很多人而不是单个
人完成的。为了协调不同人员的工作以及适应不同类型的用户,非常有必要建立一个线路图--数据模型,数据模型描述了DW2.0各部分如何
结合在一起。如果没有数据模型,DW2.0各部分的工作边被割裂开来,从而导致系统的混乱。

数据模型和企业
    数据模型是依据企业本身而建立的,它模拟了企业的各个部分。
    建立数据模型的第一步是定义整合范围。整合范围描述数据模型中包含什么和不包含什么。整合范围是十分重要的,没有它数据模型就
会无休止地建立下去,甚至可能包含宇宙级的数据。数据模型是建立在企业数据的基础之上。大多数机构都有大量的数据。即使定义了整合
范围,如果分析员不够谨慎,数据模型的建立还是会无休止地进行,除非对粒状数据模型和概括性或者聚合性数据模型有明确的区别。粒状
型数据是指体现最低层意义的数据,概括性数据则是诸如一天的交易量、一个月的收入、一年里企业的员工数,一个季度内的国民生产总值

区别粒状型数据和概括性数据
    关于为什么要区分粒状型数据和概括性数据主要有一下几个原因:
    1、概括型数据远远多于粒状型数据
    2、概括性数据变化速度比其建模过程要快
    3、概括性数据自身携带描述其是如何形成的算法
    如果数据模型中包括概括性数据,那么该模型肯定不能完成。

数据模型的层次
    1、ERD层,实体关系层,是数据模型中的最高层
    2、中间层模型,即dis,或数据项集
    3、底层模型,物理层,是数据建模的最底层
    ERD层是模型中较高的层,可以很快被构建好。ERD层描述了公司业务中的主要领域和他们之间的关系。中间层模型描述了数据模型中的
关键字、属性以及细节数据之间的关系。底层模型描述了数据模型的物理特性,例如数据的物理属性、索引、外键等等。模型的层次越低,
细节层次就越高。而模型的层次越高,模型就越完善。
    事实上,像DW2.0那样拥有不同层次模型的复杂结构在现实中也很常见,并不是一项新的陌生的技术。不同层次的映射结合在一起组成了
一个有层次的整体。如果数据模型结合在一起,组成DW2.0环境的各种系统便有了新的意义和秩序。DW2.0环境中有很多不同的模型。

数据模型与交互区
    第一批模型位于交互区的应用中。通常,每一项应用对应一个单独的数据模型。应用数据模型是由应用需求决定的。对性能的需求时建
立应用数据模型需要考虑的一个主要的方面。贯穿整个应用环境,特别是那些存在OLTP事物的地方,数据模型都是根据性能需求建立的。
当数据模型考虑了性能时才会变得合理化,贯穿系统的合理数据流会产生高的性能表现。而这种合理数据流正式由合理化的数据模型将数据
放在一起形成的。

企业数据模型
    企业数据模型展示了从应用环境中得到的数据如何形成企业数据。如果企业数据模型位于交互层和整合曾之间,那么它 就是DW2.0环境
的数据模型。企业数据模型以一种整合的方式描述企业所有的数据。企业模型真实反映了企业看待信息的视角,是一种整体信息的视角。

模型转换
    数据从应用区或者交互区流入整合区数据转变成企业状态。值得注意的是,当数据进入整合区时,通常会按照对象域存储。
    当数据流进入近线区时,数据模型通常不会发生改变。因为仅限环境需要尽可能模仿整合环境,近线区和整合区数据模型完全一样。
    归档区的数据模型可能改变也可能不改变。在一些情况下,数据进入归档区后状态和在整合区时相同,此时数据模型没有改变,另外一
种情况下,数据流入归档区时会发生根本的转变。数据流入了一个可称为反转列表格式的地方。数据被重新安排为一系列简单地列表。归档
环境或许需要这样一个转换,因为他可以使归档环境下的数据更易于查找和分析。归档环境数据可以放在企业数据模型格式中或者反转列表
格式中。

数据模型与非结构化数据
    数据模型对非结构化部分的重要性并没有其对结构化部分的重要性大。
    在DW2.0的非结构化部分,使用数据模型的第一个地方是外部分类过程。外部分类通常用于对数据进行分组和分类,使这些数据规范化或
合理化。非结构化环境中使用数据模型的第二个地方是建立内部数据模型。每部数据模型通常被用来描述文本实体的内容和结构,这些文本
实体往往非常大。
    首先非结构化数据被收集起来。接着这些数据会按照不同的对象加以阻止。通过这些对象可以建立相应的SOM(自组织映射),一旦SOM
建立起来,非结构化文本的核心主题及不同主题间的关系也随之形成,通过这些基本信息,内部数据模型便建立起来。

总结:
    数据模型形成了DW2.0环境的只能线路图。DW2.0规模庞大,结构复杂,需要大量的开发者经过长期的努力才能建立起来,正式数据模型
的出现,才使得不同的开发工作能够结合在一起。
    数据模型的形成取决于企业的业务需求,它建立在大量的粒状型数据基础上,而非概括性或聚合性数据。
    数据模型包括三个层次--ERD层、中间层和物理层。
    交互区的形成由应用模型决定,整合区的形成由企业数据模型决定。
    一些数据模型可以被用于非结构化数据中。特别是外部分类可以有为它们建立的数据模型。另外,内部数据模型可以根据主题建立,这
些主题是根据文本产生的。

DW2.0下一代数据仓库架构_第8章 数据模型和DW2.0(读书笔记)