首页 > 代码库 > 数据挖掘概念与技术--数据仓库的概念

数据挖掘概念与技术--数据仓库的概念

1.数据仓库的定义

  数据仓库是一个面向主题的,集成的,时变的和非易失的数据集合,支持管理部门的决策过程。

    面向主题的:数据仓库都围绕一些主题来组织:如顾客,供应商,产品和销售等某一特定的目的,而非组织机构的日常操作和事务管理。即:数据仓库排除对于决策无用的数据,它提供的是特定主题的简明视图。

    集成的:构建数据仓库是将多个数据源的数据集成在一起,数据源可以是:关系数据库,一般文件,联机事务记录。在此处用到前面所述数据清理和数据集成技术。

    时变的:数据存储从历史的角度提供信息(例如过去3个月,5-10年等)。

    非易失的:数据仓库总是物理的分别存放数据,他不需要事务处理,恢复和并发控制机制,只需要进行数据的初始存入和访问。

 2.操作数据库与数据仓库的区别

    联机操作数据库系统,这种系统被称作联机事务处理系统(OLTP),它涵盖了组织机构的大部分日常操作,如购物,库存,制造,注册,记账等;    

    数据仓库系统,这种系统被称作联机分析处理系统(OLAP),主要用于为知识工人,用于决策提供支持。

    主要区别:

      用户和系统面向性。OLTP面向顾客,OLAP面向市场。

      数据内容。OLTP管理当前数据,OLAP管理历史数据,提供汇总和聚集机制,在不同粒度级别上存储和管理信息。

      数据库设计。OLTP系统采用实体联系数据模型并面向应用;OLAP系统采用星型和雪花模型并面向主题。

      视图。OLTP关注当前数据。OLAP常常跨越数据库模式的多个版本,并且还处理来自不同组织的信息,可能存放在多个存储介质上。

      访问模式。OLTP主要由短的原子事务组成,并需要并发控制和回复机制。

      技术分享

2.为什么不在操作数据库上进行联机分析处理,还要使用分离的数据仓库?

    1. 两者由于目的的不同,数据仓库的查询复杂,需要创建多维的数据组织,存取方法和实现方法。对操作数据库进行复杂的OLAP查询,会降低操作的任务的性能。

    2.并发控制和恢复机制用于OLAP这种只读操作会危害并行事务的运行。

 

数据挖掘概念与技术--数据仓库的概念