数据仓库数据建模的几种思路

[商业计算机数据仓库]Data warehouseA data warehouse is, primarily, a record of an enterprise's past transactional and operational information, stored in a database designed to for...+阅读

数据仓库接典型的两种数据仓库建模的理论是维度建模和基于主题域的实体关系建模，这两种方式分别以Kimball和Immon两位大师为代表。维度建模以数据分析需求为驱动，倡导总线架构：一致的事实和一致的维度，这种数据模型易于用户理解和数据分析操作。基于主题域的实体关系建模以源系统数据为驱动，整合企业的所有数据，站在企业级的高度对数据进行抽象，整合，采用3NF的实体关系理论建模，这种数据建模方式以更为抽象的方式尝试建立一个相对稳定的数据模型，并能描述企业级的数据关系。在工业界往往把两种方式结合起来运用数据仓库的不同数据层次结构中。

我们上周主要是针对采用基于主题域的实体关系建模中数据整合的方式进行较为深入的讨论，讨论了以下三种思路：

以属性聚集的方式同一主题域中不同实体的属性。比如对于会员、公司、客户等等实体对象我们都有地址属性信息、名称标识属性信息等等，这种思路就是把属性内聚性高的字段整合在一起，并把不同的属性打上类型标识以树表的形式存放。它的优点是：第一，模型稳定性好，外围系统变化了字段，只需要添加不同的类型，不需要进行表结构的变更；第二，减少大量冗余记历史数据。它的缺点是：第一，丢失了很多实体的属性标识信息，我们从模型上将看不到一个会员究竟有哪些地址属性，只能通过查询类型代码才能获取这些信息；第二，它极度的膨胀数据表的记录数，因为它采用竖表的形式存放；第三，应用起来很难，效率是一个大问题，因为我们往往要使用一个实体的多个字段，就会有很多join操作和竖转横的操作。第四：属性聚集也是一件比较难操作的过程，应为这是一个抽象的过程，对建模人员的业务背景知识和抽象能力都提出了很高的要求；第五：虽然减少了冗余的记历史数据，但是记历史的操作也较为复杂。

采用面向对象建模的方式，抽象不同实体的共同属性，然后再一步步采用继承、组合等面向对象的思想具体化实体。他的优点是模型模型概念比较清晰，缺点也是模型相对不是很稳定，整合后的数据的后续应该也面临重新组合的问题。

贴源的建模方式：

采用基本保持源系统的方式进行建模，重点放在数据的标准化，一致化，和数据业务意义的梳理。这种做法和我们目前数据仓库的做法比较类似。它具有实施比较容易，快速实现，前台可以直接使用数据；缺点是整合度不高，模型不稳定。

模型终究是为数据分析应用服务的，具体采用什么方式建模需要根据实际业务特点和源系统的特点决定。阿里巴巴的源系统具有变化快，数据分析应该变化快的特点，响应速度也要快的特点，而且我们要求不同系统之间整合的需求并不是很大，往往深度的数据整合带来的是应用上的不方便。因此，我个人觉得采用贴源的方式是当前更优的方案。

数据仓库建模星型模型大致了解就是事实表对应许多维表对雪花

详细和你说一下星型模型和雪花模型星型模式 vs 雪花模型多维数据建模以直观的方式组织数据，并支持高性能的数据访问。每一个多维数据模型由多个多维数据模式表示，每一个多维数据模式都是由一个事实表和一组维表组成的。多维模型最常见的是星形模式。在星形模式中，事实表居中，多个维表呈辐射状分布于其四周，并与事实表连接。在星型的基础上，发展出雪花模式，下面就二者的特点做比较。星型模式位于星形中心的实体是指标实体，是用户最关心的基本实体和查询活动的中心，为数据仓库的查询活动提供定量数据。每个指标实体代表一系列相关事实，完成一项指定的功能。位于星形图星角上的实体是维度实体，其作用是限制用户的查询结果，将数据过滤使得从指标实体查询返回较少的行，从而缩小访问范围。

每个维表有自己的属性，维表和事实表通过关键字相关联。星形模式虽然是一个关系模型，但是它不是一个规范化的模型。在星形模式中，维度表被故意地非规范化了，这是星形模式与OLTP系统中的关系模式的基本区别。使用星形模式主要有两方面的原因：提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理，主要数据都在庞大的事实表中，所以只要扫描事实表就可以进行查询，而不必把多个庞大的表联接起来，查询访问效率较高。同时由于维表一般都很小，甚至可以放在高速缓存中，与事实表作连接时其速度较快；便于用户理解。对于非计算机专业的用户而言，星形模式比较直观，通过分析星形模式，很容易组合出各种查询。总结：非正规化；多维数据集中的每一个维度都与事实表连接（通过主键和外键）；不存在渐变维度；有冗余数据；查询效率可能会比较高；不用过多考虑正规化因素，设计维护较为简单。

雪花模式在实际应用中，随着事实表和维表的增加和变化，星形模式会产生多种衍生模式，包括星系模式、星座模式、二级维表和雪花模式。雪花模式是对星形模式维表的进一步层次化，将某些维表扩展成事实表，这样既可以应付不同级别用户的查询，又可以将源数据通过层次间的联系向上综合，最大限度地减少数据存储量，因而提高了查询功能。雪花模式的维度表是基于范式理论的，因此是界于第三范式和星形模式之间的一种设计模式，通常是部分数据组织采用第三范式的规范结构，部分数据组织采用星形模式的事实表和维表结构。在某些情况下，雪花模式的形成是由于星形模式在组织数据时，为减少维表层次和处理多对多关系而对数据表进行规范化处理后形成的。雪花模式的优点是：在一定程度上减少了存储空间；规范化的结构更容易更新和维护。

同样雪花模式也存在不少缺点：雪花模式比较复杂，用户不容易理解；浏览内容相对困难；额外的连接将使查询性能下降。在数据仓库中，通常不推荐“雪花化”。因为在数据仓库中，查询性能相对OLTP系统来说更加被重视，而雪花模式会降低数据仓库系统的性能。总结：正规化；数据冗余少；有些数据需要连接才能获取，可能效率较低；规范化操作较复杂，导致设计及后期维护复杂；实际应用中，可以采取上述两种模型的混合体：如：中间层使用雪花结构以降低数据冗余度，数据集市部分采用星型以方便数据提取及和分析。有时候规范化和效率是一组矛盾。一般我们会采取牺牲空间（规范化）来换取好的性能，把尽可能多的维度信息存在一张“大表”里面是最快的。通常会视情况而定，采取折中的策略。

星型有时会造成数据大量冗余，并且很有可能将事实表变的及其臃肿（上百万条数据*上百个维度）。每次遇到需要更新维度成员的情况时，都必须连事实表也同时更新。而雪花型，有时只需要更新雪花维度中的一层即可，无需更改庞大的事实表。具体问题具体分析，如时间维度，年，季就没必要做雪花，而涉及到产品和产品的分类，如果分类信息也是我们需要分析的信息，那么，我肯定是建关于分类的查找表，也就是采用雪花模式雪花型结构是一种正规化结构，他取除了数据仓库中的冗余数据。比如有一张销售事实表，然后有一张产品维度表与之相连，然后有一张产品类别维度表与产品维度表连。这种结构就是雪花型结构。雪花型结构取除了数据冗余，所以有些统计就需要做连接才能产生，所以效率不一定有星型架构高。

正规化也是一种比较复杂的过程，相应数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。星型架构是一种非正规化的结构，多维数据集中的每一个维度都与事实表相连接，不存在渐变维度，所以数据有一定的冗余，正因为数据的冗余所以很多统计查询不需要做外部的连接所以一般情况下效率比雪花型要高。星型结构不用考虑很多正规化的因素，设计与实现都比较简单。虽然两种结构有一定差别，我个人认为没有好坏之分，最主要的还是看项目的需求，看业务逻辑。

数据仓库的数据结构到底是星型雪花模型还是三范式

首先，你说的数据结构设计包括了两种，一个是数据库设计，一个是数据仓库设计

针对数据库设计一般用的是三范式。因为数据库的数据会用于频繁的增删改查，因此出于减少系统压力考虑，会尽量减少冗余，从而提升系统频繁读写数据的效率。

而星型、雪花型则是数据仓库的设计模式。与数据库的使用目的不同，数据仓库更多的是存储历史数据，不会有频繁的读写。其主要是用于从历史数据中进行分析，进而获取指导性的生产指引，生成报表等等。而这时数据库设计中的范式拆表以提升效率的方法这时却会适得其反（因为历史数据的量相当庞大，而往往数据分析、BI等又需要从多个表中检索数据来进行，这时大表之间的频繁交互会使分析效率变得相当低，所以往往会考虑合并表的方法，故意制造冗余）。

当然，以我个人的经验，就算是数据库设计，也很少会把表设计到三范式。因为一旦表的数据量变得庞大时，表与表之间交互的时间代价会比冗余数据的代价大得多。

以下为关联文档：

数据仓库的数据存储和实现当面对大量的数据，而且是各种各样类型的数据，还可能有的数据单元（粒度）很大，单纯靠数据库是不易解决，为了解决这些问题，提高系统后台的效率，就需要引进数据仓库。有关数据仓库的数...

教你快速掌握常见的几种数据库对象教你快速掌握常见的几种数据库对象。注释：数据库对象是数据库的组成部分，常见的有以下几种： 1.表(Table ) 数据库中的表与我们日常生活中使用的表格类似，它也是由行(Row) 和列(C...

数据仓库的设计步骤1）选择合适的主题（所要解决问题的领域）2）明确定义事实表3）确定和确认维4）选择事实表5）计算并存储fact表中的衍生数据段6）转换维表7）数据库数据采集8）根据需求刷新维表9）确定查询优先级...

动态数据仓库怎样设计与应用数据仓库技术的每次演进都以发掘企业数据中更多价值作为目标。而近期流行的动态数据仓库技术，不仅在灵活性、可视化方面有了长足进步，还能够对企业决策、合作伙伴及客户服务提...

从数据仓库技术出发说明数据仓库的设计数据表的设计等简单的说就是无处不索引。数据仓库的特点：插入，修改的性能可以不高。大数据量统计的性能要高。所以就要建很多的索引。跟在线联机系统有较大的差别。联机在线的系统主要讲...

2简述数据仓库的建设步骤简述数据仓库的建设步骤数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集...

美国数学建模题目提供数据么mcm85 问题-a 动物群体的管理 mcm85 问题-b 战购物资储备的管理 mcm86 问题-a 水道测量数据 mcm86 问题-b 应急设施的位置 mcm87 问题-a 盐的存贮 mcm87 问题-b 停车场 mcm8...

Mysql数据库备份的几种方法1、复制date文件夹备份============================假想环境：MySQL 安装位置：C:\MySQL论坛数据库名称为：bbs数据库备份目的地：C:\db_bak\============================新建db_b...

数据仓库是什么数据仓库是什么，数据库是什么？根据数据仓库概念的含义，数据仓库拥有以下四个特点： 1、面向主题。操作型数据库的数据组织面向事务处理任务，各个业务系统之间各自分离，而数据仓库中...