三九宝宝网宝宝百科宝宝知识

什么是数据的质量

03月10日 编辑 39baobao.com

[什么是数据库的概念结构逻辑结构和物理结构数据库是如何设计的]数据库系统的基本概念 数据:实际上就是描述事物的符号记录。 数据的特点:有一定的结构,有型与值之分,如整型、实型、 字符型等。而数据的值给出了符合定型的值,如整型值15。 数据...+阅读

?? 测量系统分析(MSA) 什么是测量系统 * 测量系统:用来对被测特性赋值的操作、程序、量具、设备、 软件及操作人员的集合 人 设备 材料 测量过程 数据 方法 环境 输入 输出 * 测量系统应具备的特性 1 ) 处于统计控制状态,即只存在变差的普通原因; 2 ) 测量系统的变异性小于过程变异性; 3 ) 测量系统的变异性小于技术规范界限; 4 ) 测量精度应高于过程变异性和技术规范宽度的 1/10 ; 5 ) 当被测项目变化时,测量系统统计特性的最大变差小于过 程变差和规范宽度较小者; * 数据的类型 ——计量型数据 ——计数型数据 * 如何评定数据质量 ——测量结果与“真”值的差越小越好 ——数据质量是用多次测量的统计结果进 行评定 * 计量型数据的质量 ——均值与真值(基准值)之差 ——方差大小 * 计数型数据的质量 ——对产品特性产生错误分级的概率 测量系统评定的两个阶段 * 第一阶段(使用前) ——确定统计特性是否满足需要 ——确定环境因素是否有影响 * 第二阶段(使用过程) ——确定是否持续的具备恰当的统计特性 测量系统特性及变差类型和定义 类型 定义 图示 分辨力 测量系统检出并 如实指出被测定 特性微小变化的 能力 评价均值质量 偏倚 观测平均值与基 准值的差 基准值 偏倚 稳定性 在某种持续时间 内测量同一基准 或零件单一特性 结果的总变差 稳定性 时间 2 时间 1 线性 量具的预期工作 范围内偏倚的变 化 观察平均值 有偏倚 无偏倚 基准值 评价变差 质量 重复性 同一评价人,多次 测量同一特性的 观测值变差 再现性 不同评价人,测量 同一特性观测平 均值的变差 B C A 再现性 测量系统的分辨力 * 建议的可视分辨率 ≤ 6 σ /10 σ——过程的标准差(不是公差宽度的 1/10 ) * 分辨率不足对控制图的影响 测量系统的稳定性 * 两种稳定性 ——一般概念:随着时间变化系统偏倚的总变 差。

——统计稳定性概念:测量系统只存在普通原 因变差而没有特殊原因变差。 * 利用控制图评价测量系统稳定性。 ——保持基准件或标准样件。 ——极差图(标准差图)出现失控时,说明存 在不稳定的重复性。 ——均值图出现失控时,说明偏倚不稳定。 评价测量系统的三个基本问题 * 是否有足够的分辨力 * 是否统计稳定 * 统计特性用于过程控制和分析是否可接受。 盲测法 * 在实际测量环境下,在操作者事先不知正在对 该测量系统进行评定的条件下,获得测量结果。 向传统观念挑战 * 长期存在的把测量误差只作为公差范围百分 率来报告的传统,是不能面临未来持续改进的 市场挑战。 国际标准 国家标准 地方标准 公司标准 检测设 备制造厂 测量结果 * 追溯性:通过应用连接标准等级体系的适当标 标准的传递 国际实验室 国家实验室 国家认可的 校准机构 企业的校准 实验室 生产现场 准程序,使单个测量结果与国家标准或国家接 受的测量系统相联系。

GIS数据质量的基本特点及常见的误差原因

1.数据质量的基本概念

1.1准确性(Accuracy)

1.2精度(Precision)

1.3空间分辨率(Spatial Resolution)

1.4比例尺(Scale)

1.5误差(Error)

1.6不确定性(Uncertainty)

2.空间数据质量问题的来源

2.1空间现象自身存在的不稳定性

2.2空间现象的表达

2.3空间数据处理中的误差

2.4空间数据使用中的误差

表1:数据的主要误差来源

数据处理过程 误差来源

数据搜集

野外测量误差:仪器误差、记录误差

遥感数据误差:辐射和几何纠正误差、信息提取误差

地图数据误差:原始数据误差、坐标转换、制图综合及印刷

数据输入

数字化误差:仪器误差、操作误差

不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换

数据存储

数值精度不够

空间精度不够:每个格网点太大、地图最小制图单元太大

数据处理

分类间隔不合理

多层数据叠合引起的误差传播:插值误差、多源数据综合分析误差

比例尺太小引起的误差

数据输出

输出设备不精确引起的误差

输出的媒介不稳定造成的误差

数据使用

对数据所包含的信息的误解

对数据信息使用不当

3.空间数据质量控制

数据质量控制是个复杂的过程,要控制数据质量应从数据质量产生和扩散的所有过程和环节入手,分别用一定的方法减少误差。空间数据质量控制常见的方法有:

3.1传统的手工方法

质量控制的人工方法主要是将数字化数据与数据源进行比较,图形部分的检查包括目视方法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原属性逐个对比或其他比较方法。

3.2元数据方法

数据集的元数据中包含了大量的有关数据质量的信息,通过它可以检查数据质量,同时元数据也记录了数据处理过程中质量的变化,通过跟踪元数据可以了解数据质量的状况和变化。

3.3地理相关法

用空间数据的地理特征要素自身的相关性来分析数据的质量。如从地表自然特征的空间分布着手分析,山区河流应位于微地形的最低点,因此,叠加河流和等高线两层数据时,如河流的位置不在等高线的外凸连线上,则说明两层数据中必有一层数据有质量问题,如不能确定哪层数据有问题时,可以通过将它们分别与其它质量可靠的数据层叠加来进一步分析。因此,可以建立一个有关地理特征要素相关关系的知识库,以备各空间数据层之间地理特征要素的相关分析之用。

如何理解关于数据质量管理系统的整合与优化

1、信息系统数据质量——根据“垃圾进,垃圾出(garbagein,garbageout)”的原理,为了使信息系统建设取得预期效果,达到数据决策的目标,就要求信息系统提供的数据是可靠的,能够准确反应客观事实。如果数据质量得不到保证,即使数据分析工具再先进,模型再合理,算法再优良,在充满“垃圾”的数据环境中也只能得到毫无意义的垃圾信息,系统运行的结果、作出的分析就可能是错误的,甚至影响到后续决策的制定和实行。

高质量的数据来源于数据收集,是数据设计以及数据分析、评估、修正等环节的强力保证。因此,信息系统数据质量管理尤为重要,这就需要建立一个有效的数据质量管理体系,尽可能全面发现数据存在的问题并分析原因,以推动数据质量的持续改进。作为信息系统的重要构成部分,数据质量问题是影响信息系统运行的关键因素,直接关系到信息系统建设的成败。

2、大数据环境下数据质量管理面临的挑战,因为大数据的信息系统更容易产生数据质量问题:

(1)在数据收集方面,大数据的多样性决定了数据来源的复杂性。来源众多、结构各异、大量不同的数据源之间存在着冲突、不一致或相互矛盾的现象。在数据获取阶段保证数据定义的完整性、数据质量的可靠性尤为必要。

(2)由于规模大,大数据获取、存储、传输和计算过程中可能产生更多错误。

采用传统数据的人工错误检测与修复或简单的程序匹配处理,远远处理不了大数据环境下的数据问题。

(3)由于高速性,数据的大量更新会导致过时数据迅速产生,也更易产生不一致数据。

(4)由于发展迅速,市场庞大,厂商众多,直接产生的数据或者产品产生的数据标准不完善,使得数据有更大的可能产生不一致和冲突。

(5)由于数据生产源头激增,产生的数据来源众多,结构各异,以及系统更新升级加快和应用技术更新换代频繁,使得不同的数据源之间、相同的数据源之间都可能存在着冲突、不一致或相互矛盾的现象,再加上数据收集与集成往往由多个团队协作完成,期间增大了数据处理过程中产生问题数据的概率。

3、数据质量管理策略 为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,密切关注数据质量的发展和变化,深入研究数据质量问题所遵循的客观规律,分析其产生的机理,探索科学有效的控制方法和改进措施;必须强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。

结合大数据的参考框架及数据处理实际需求情况,数据质量管理可以从以下几个方面着手,以多方协作改进,最终实现系统数据处于持续高效可用的状态。3.1建立数据质量评价体系 评估数据质量,可以从如下4个方面来考虑:①完整性:数据的记录和信息是否完整,是否存在缺失情况;②一致性:数据的记录是否符合规范,是否与前后及其它数据集保持统一;③准确性:数据中记录的信息和数据是否准确,是否存在异常或者错误信息;④及时性:数据从产生到可以查看的时间间隔,也叫数据的延时时长。

有了评估方向,还需要使用可以量化、程序化识别的指标来衡量。通过量化指标,管理者才可能了解到当前数据质量,以及采取修正措施之后数据质量的改进程度。而对于海量数据,数据量大、处理环节多,获取质量指标的工作不可能由人工或简单的程序来完成,而需要程序化的制度和流程来保证,因此,指标的设计、采集与计算必须是程序可识别处理的。

完整性可以通过记录数和唯一值来衡量。比如某类的交易数据,每天的交易量应该呈现出平稳的特点,平稳增加、平稳增长或保持一定范围内的周期波动。如果记录数量出现激增或激减,则需要追溯是在哪个环节出现了变动,最终定位是数据问题还是服务出现了问题。对于属性的完整性考量,则可以通过空值占比或无效值占比来进行检查。

一致性检验主要是检验数据和数据定义是否一致,因此可以通过合规记录的比率来衡量。比如取值范围是枚举集合的数据,其实际值超出范围之外的数据占比,比如存在特定编码规则的属性值不符合其编码规则的记录占比。还有一些存在逻辑关系的属性之间的校验,比如属性A取某定值时,属性B的值应该在某个特定的数据范围内,都可以通过合规率来衡量。

准确性可能存在于个别记录,也可能存在于整个数据集上。准确性和一致性的差别在于一致性关注合规,表示统一,而准确性关注数据错误。因此,同样的数据表现,比如数据实际值不在定义的范围内,如果定义的范围准确,值完全没有意义,那么这属于数据错误。但如果值是合理且有意义的,那么可能是范围定义不够全面,则不能认定为数据错误,而是应该去补充修改数据定义。

通过建立数据质量评价体系,对整个流通链条上的数据质量进行量化指标输出,后续进行问题数据的预警,使得问题一出现就可以暴露出来,便于进行问题的定位和解决,最终可以实现在哪个环节出现就在哪个环节解决,避免了将问题数据带到后端及其质量问题扩大。3.2落实数据质量信息的采集、分析与监控 有评价体系作为参照,还需要进行数据的采集、分析和监控,为数据质量提供全面可靠的信息。在数据流转...

以下为关联文档:

什么是数据模型数据模型 数据(data)是描述事物的符号记录。模型(Model)是现实世界的抽象。数据模型(Data Model)是数据特征的抽象,是数据库管理的教学形式框架。 数据模型所描述的内容包括三个部...

什么是Oracle数据库 Oracle数据库是什么Oracle应用产品包括财务、供应链、制造、项目管理、人力资源和市场与销售等150多个模块,荣获多项世界大奖,现已被全球近7600多家 企业所采用。由于在电子商务方面的杰出表现,Or...

什么是数据存储设计系统设计的任务是什么1、管理员不管数据库的设计,他是通过一个已经设计好的界面进行数据维护。说难听点,他可能连数据库怎么设计都不会,也不必会; 2、系统分析员就超厉害了,他是对大型、复杂的信息系...

数据科学与大数据技术专业是学什么数据科学与大数据技术,是2016年我国高校设置的本科专业。课程教学体系涵盖了大数据的发现、处理、运算、应用等核心理论与技术,具体课程包括:大数据概论、大数据存储与管理、大...

数据的概念是什么数据的4个“V”,或者说特点有四个层面:第一,数据体量极大。从TB级别,跃居到PB级别;第二,数据类型多样。前文提及的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业...

数据是很火可是你真的知道什么是大数据数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和...

什么是应用数据库?什么是数据库服务器应用数据库是一个实际可运行的存储、维护和应用系统提供数据的软件系统,是存储介质、处理对象和管理系统的集合体。它通常由软件、数据库和数据管理员组成。其软件主要包括操...

数据仓库是什么数据仓库是什么,数据库是什么?根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中...

数据是什么?数据是什么?什么是大数据?大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物。当然,这并不是说大数据没有意义,只是对于不同的人有不同的含义。 A. 对于投资人和创...

推荐阅读
图文推荐