[《与大数据同行》学习体会]正规教育中,反馈随处可见。在一个人的求学生涯中,会积累数以百计的此类数据点,我们将其称为 小数据 ,这些数据代表的是学生在教师眼中的学业表现。我们越来越依赖于这种反馈,将其...+阅读
一、数据归约基本知识:
对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。
对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。
在实践中,特征的数量可达到数百,如果我们只需要上百条样本用于分析,就需要进行维归约,以挖掘出可靠的模型;另一方面,高维度引起的数据超负,会使一些数据挖掘算法不实用,的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现:列(特征),行(样本)和特征的值,数据归约过程也就是三个基本操作:删除列,删除行,减少列中的值。
在进行数据挖掘准备时进行标准数据归约操作,我们需要知道从这些操作中我们会得到和失去什么,全面的比较和分析涉及到如下几个方面的参数:
(1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。
(2)预测/描述精度:估量了数据归纳和概括为模型的好坏。
(3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。
数据归约算法特征:
(1)可测性
(2)可识别性
(3)单调性
(4)一致性
(5)收益增减
(6)中断性
(7)优先权
二、数据归约方法:
1、特征归约:
用相应特征检索数据通常不只为数据挖掘目的而收集,单独处理相关特征可以更有效,我们希望选择与数据挖掘应用相关的数据,以达到用最小的测量和处理量获得的性能。特征归约处理的效果:
(1)更少的数据,提高挖掘效率
(2)更高的数据挖掘处理精度
(3)简单的数据挖掘处理结果
(4)更少的特征。
和生成归约后的特征集有关的标准任务有两个:
(1)特征选择:基于应用领域的知识和挖掘目标,分析者可以选择初始数据集中的一个特征子集。特征排列算法,最小子集算法
(2)特征构成:特征构成依赖于应用知识。
特征选择的目标是要找出特征的一个子集,此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较,此方法的主要缺点是特征的分布未知。
方法的近似:
(1)只对有前景的特征子集进行检查
(2)用计算简单的距离度量替换误差度量
(3)只根据大量数据的子集选择特征。
特征归约处理期望达到的效果:
(1)提高模型生成过程和所得模型本身的性能
(2)在不降低模型质量的情况下减少模型维度
(3)帮助用户可视化有更少维数的可能结果,改进决策。
2、主成分分析:
主成分分析是大型数据集归约的一种统计方法。
是将以向量样本表示的初始数据集转换为一个新的导出维度的向量样本集,转换的目标是将不同样本中的信息集中在较小的维度中。
一个n维向量样本集X={x1,x2,x3,…,xm},转换为另一个相同维度的集Y={y1,y2,…,ym}
Y把大部分信息内容存在前几个维中,可以让我们以低信息损失讲数据集减小到较小的维度。
Y=A*X
3、值归约:
特征离散化技术:减少已知特征的离散值数目,将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。
这样就简化了数据描述并易于理解数据和最终数据挖掘的结果。
(1)分割点选择
(2)怎样选择区间描述
几种自动离散化技术:
(1)特征离散化
ChiMerge算法:
a.对已知特别数据进行升序排列
b.定义初始区间,使特征的每个值都在一个单独的区间内
c.重复进行直到任何两个相临区间的X2都不小于阈值。
4、案例归约:
初始数据集中和最关键的维度数就是案例或样本的数目。
在案例规约之前,我们消除了异常点,有时也需要消除有丢失值的样本。取样误差是固有的。
取样方法分类:
(1)普通用途取样
a.系统化取样
b.随机取样:不回放/回放
基本形式有增量取样,平均取样,
c.分层取样
d.逆取样
(2)特殊用途取样
以下为关联文档:
让专家和数据告诉你:补充维生素A对中国宝宝有多重要!我国儿童维生素A缺乏现状根据近五年的地域性流行病学调查数据显示,我国各地区亚临床和可疑维生素A缺乏率仍居高不下,即使是北京、江苏、重庆等较为发达的地区,都无法避免维生...
e学习大数据云课堂在90课时信息技术培训初次接触e学习,了解萨尔曼 可汗的可汗学院及可汗的故事到到去年的翻转课堂、微视频的制作,平时也在密切关注数字时代教学的变革,可以说互联网时代的教学变...
在excle表格中如何合并两列数据2然后,我们选择合并情况项里面的第一项格子,在里面输入=c3d3因为数据一是在c列的第三行,数据二是在d列的第三行。3输完之后,我们直接点击enter键就可以显示出来了。4我们选中...
在Excle2007中如何针对特定数据新建查询2找到新建查询按钮,点击新建查询。3点击从文件中的从工作薄选项。4选择需要查询的工作薄文件地址。5接下来点击关闭并上载。6这样excle针对特定数据新建查询就顺利完成了...
面试谈薪企业最关心的三个数据通常在面试谈薪时,企业会关心和薪资相关的三个数据:现在的薪资、要求的底线薪资、期望薪资。但很多人其实混淆了底线薪资和期望薪资。那么问题来了,如果给不到你的期望薪资的工...
HR只关心三个数据,搞不清楚别想有面试!通常在面试谈薪时,企业会关心和薪资相关的三个数据:现在的薪资、要求的底线薪资、期望薪资。但很多人其实混淆了底线薪资和期望薪资。那么问题来了,如果给不到你的期望薪资的工...
数据结构教程第二十九课静态查找表教学目的: 掌握查找的基本概念,顺序表查找的性能分析 教学重点: 查找的基本概念 教学难点: 顺序表查找的性能分析 授课内容: 一、查找的基本概念 查找表: 是由同一类型的数据元素(...
数据结构教程第二十三课二叉树的存储结构教学目的: 掌握二叉树的两种存储结构 教学重点: 链式存储结构 教学难点: 链式存储二叉树的基本操作 授课内容: 一、复习二叉树的定义 二叉树的基本特征:每个结点的度不大于2。 二...
VB6.0使用ADO对象连接数据库1. 定义连接对象 Global DBconnect As New ADODB.Connection 2. 执行连接语句 If DBconnect.State = adStateOpen And Not IsEmpty(adStateOpen) Then DBconnect.Close 连接OD...