三九宝宝网宝宝百科宝宝知识

什么是数据仓库星型模式

02月28日 编辑 39baobao.com

[商业计算机数据仓库]Data warehouseA data warehouse is, primarily, a record of an enterprise's past transactional and operational information, stored in a database designed to for...+阅读

(星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做20~80分析。这样就可以从不同的角度数字来分析业务主题的情况。)在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。

当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型, 如图 2 。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。销售数据仓库中的星型模型当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 " 层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。

如图 2-3,将地域维表又分解为国家,省份,城市等维表。它的优点是 : 通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花型结构去除了数据冗余销售数据仓库中的雪花型模型星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花型模型要高。星型结构不用考虑很多正规化的因素,设计与实现都比较简单。 雪花型模型由于去除了冗余,有些统计就需要通过表的联接才能产生,所以效率不一定有星型模型高。正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的 ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。...

如何建立和评估数据仓库逻辑模型

逻辑模型指数据仓库数据的逻辑表现形式。从最终应用的功能和性能的角度来看,数据仓库的数据逻辑模型也许是整个项目最重要的方面,需要领域专家的参与。从内容上看,涉及的方面有确立主题域,粒度层次的划分,确定数据分割策略,关系模式的确定。 逻辑模型建设方法 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。目前较常用的两种建模方法是所谓的第三范式 (3NF,即 Third Normal Form)和星型模式 (Star-Schema) 第三范式 关系模式满足以下特征: 1 每个属性的值唯一,不具有多义性; 2. 每个非主属性必须完全依赖于整个主键,而非主键的一部分; 3. 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去 星型模型 星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimens ion Table)组成。

每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实 (Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据。 第三范式和星型模式在数据仓库中的应用 大多数人在设计中央数据仓库的逻辑模型时,都按照第三范式来设计;而在进行物理实施时,则由于数据库引擎的限制,不得不对逻辑模型进行不规范处理 (De-Normalize), 以提高系统的响应速度,这当然是以增加系统的复杂度、维护工作量、磁盘使用比率 (指原始数据与磁盘大小的比率)并降低系统执行动态查询能力为代价的。 那么,在中央数据仓库中是否可以采用星型模式来进行模型设计呢?我们知道,星型模式中有一个事实表和一组维表,我们可以把事实看成是各个维交叉点上的值。

星型模式之所以速度快,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。因此,在星型模式设计的数据仓库中,作报表的速度虽然很快,但由于存在大量的预处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有维表的主键组成,这种维的变动将是非常复杂、非常耗时的。星型模式另一个显著的缺点是数据的冗余量很大。综合这些讨论,不难得出结论,星型模式比较适合于预先定义好的问题,如需要产生大量报表的场合;而不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合。因此,星型模式在一些要求大量报表的部门数据集市中有较多的应用。 总之,上面讨论了数据仓库模型设计中常用的两种方法。

对于部门数据集市,当数据量不大、报表较固定时可以采用星型模式;对于企业级数据仓库,考虑到系统的可扩展能力、投资成本和易于管理等多种因素,最好采用第三范式。逻辑模型指数据仓库数据的逻辑表现形式。从最终应用的功能和性能的角度来看,数据仓库的数据逻辑模型也许是整个项目最重要的方面,需要领域专家的参与。从内容上看,涉及的方面有确立主题域,粒度层次的划分,确定数据分割策略,关系模式的确定。 逻辑模型的质量标准 对逻辑模型的评估,就是对逻辑模型质量的考察,什么是逻辑模型的质量呢?从狭义的概念说,逻辑模型是否正确表达了业务规则,也就是准确,但是随着人们对数据仓库认识的加深,质量的含义不断延伸,现在对模型质量要求不仅仅单纯指单纯的业务规则,还包括模型满足用户分析需求的程度,它是一个包含丰富内涵、具有多维因素的综合性概念。

相应地逻辑模型质量概念的认识也从狭义向广义转变,准确性已不再是衡量唯一标准。评估逻辑模型一般包括如下方面的标准 正确性 逻辑模型的建设方法是正确的,遵循了从上到下和从下到上相结合的方法,选择了正确的模型表示方式,对实际业务采用正确的概化抽象。 准确性(精度) 指逻辑模型和实际业务即“真值”之间的差异程度。误差越小,准确性就越高。这里,所谓的“真值”是可知的,尽管逻辑模型经过了抽象,概化等方法总结共性,但是模型的具体化后,与“真值”是应当符合的。可以通过范围误差、计数误差、不回答率、加工整理差错、模型假设误差等影响准确性的各个因素,测算统计估算值的变动系数、标准差、均方差、曲线配合吻合度、假设检验、偏差等,修正逻辑模型将其的误差控制在一个可接受的置信区间内。

适用性 指收集的信息是否有用,是否符合用户的需求。它要求逻辑模型的粒度,分割方式符合用户的分析需求。 可解释性 是指在公布逻辑模型时,应同时公开逻辑模型的的补充解释信息或称为“元数据”,即关于模型数据的解释说明。内容包括所使用的建设方法,建设目标,以防止模型数据二义性导致错误解释和使用。 完备性 目前的业务需求和所用的业务规则完全包含在逻辑模型中。模型中不存在没有包含的需求业务对象(如实体,属性,以及之间的关系) 一致性 模型中的各个对象命名方式统一,有明确的命名规范。而且模型中各个相关对象的粒度一致,业务逻辑模型对象的划分标准应当统一...

数据仓库的模型有哪些

1、星型模型

星型模型是一种由一点向外辐射的建模范例,中间有一单一对象沿半径向外连接到多个对象。星型模型反映了最终用户对商务查询的看法:销售事实、赔偿、付款和货物的托运都用一维或多维描述(按月、产品、地理位置)。星型模型中心的对象称为“事实表”,与之相连的对象称为“维表”。对事实表的查询就是获取指向维表的指针表,当对事实表的查询与对维表的查询结合在一起时,就可以检索大量的信息。通过联合,维表可以对查找标准细剖和聚集。

2、雪花模型

雪花模型是对星型模型的扩展,每一个点都沿半径向外连接到多个点.雪花模型对星型的维表进一步标准化,它的优点是通过最大限度的减少数据存储量以及把较小的标准化表(而不是大的非标准化表)联合在一起来改善查询性能。化及维的较低的粒度,雪花模型增加了应用程序的灵活性。

3、混合模型

混合模型是星型模型和雪花模型的一种折衷模式,其中星型模型由事实表和标准化的维表组成,雪花模型的所有维表都进行了标准化。在混合模型中,只有最大的维表才进行标准化,这些表一般包含一列列完全标准化的(重复的)数据。

以下为关联文档:

数据仓库的数据存储和实现当面对大量的数据,而且是各种各样类型的数据,还可能有的数据单元(粒度)很大,单纯靠数据库是不易解决,为了解决这些问题,提高系统后台的效率,就需要引进数据仓库。有关数据仓库的数...

什么是出口监管仓库出口监管仓库的定义 出口监管仓库是指对已办结海关出口手续的货物进行存储、保税物流配送、提供流通性增值服务的海关专用监管仓库。包括:出口配送型仓库(存储以实际离境为目...

数据仓库的设计步骤1)选择合适的主题(所要解决问题的领域)2)明确定义事实表3)确定和确认维4)选择事实表5)计算并存储fact表中的衍生数据段6)转换维表7)数据库数据采集8)根据需求刷新维表9)确定查询优先级...

动态数据仓库怎样设计与应用数据仓库技术的每次演进都以发掘企业数据中更多价值作为目标。而近期流行的动态数据仓库技术,不仅在灵活性、可视化方面有了长足进步,还能够对企业决策、合作伙伴及客户服务提...

从数据仓库技术出发说明数据仓库的设计数据表的设计等简单的说就是无处不索引。 数据仓库的特点: 插入,修改的性能可以不高。大数据量统计的性能要高。 所以就要建很多的索引。 跟在线联机系统有较大的差别。联机在线的系统主要讲...

2简述数据仓库的建设步骤简述数据仓库的建设步骤 数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集...

数据仓库的建立有哪些步骤1.确定终端用户的需要,为数据仓库中存储的数据建立模型。通过数据模型,可以得到企业完整而清晰的描述信息。数据模型是面向主题建立的,考|试/大同时又为多个面向应用的数据源的...

如何设计创建一个面向CRM的数据仓库1 CRM系统 1.1 CRM简介 一个完整的CRM主要可分成3个部分:操作型CRM、协作型CRM和分析型CRM。操作型CRM是CRM中最基本的功能系统,它提供整个CRM的流程管理功能,主要是提供以客户...

数据仓库是什么数据仓库是什么,数据库是什么?根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中...

推荐阅读
图文推荐