三九宝宝网宝宝百科宝宝知识

数据挖掘算法的算法分类

02月05日 编辑 39baobao.com

[EXCEL中计算复利算法]日息率为百分之六即6%,太虚高了? ---------------------------------------------------------------------------------------------- 若假设日息率为 0.06%,则年利率(0.06%*30...+阅读

C4.5就是一个决策树算法,它是决策树(决策树也就是做决策的节点间像一棵树一样的组织方式,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5比ID3改进的地方时: ID3选择属性用的是子树的信息增益(这里可以用很多方法来定义信息,ID3使用的是熵(entropy)(熵是一种不纯度度量准则)),也就是熵的变化值,而C4.5用的是信息增益率。

也就是多了个率嘛。一般来说率就是用来取平衡用的,就像方差起的作用差不多,比如有两个跑步的人,一个起点是100m/s的人、其1s后为110m/s;另一个人起速是1m/s、其1s后为11m/s。如果仅算差值那么两个就是一样的了;但如果使用速度增加率(加速度)来衡量,2个人差距就很大了。在这里,其克服了用信息增益选择属性时偏向选择取值多的属性的不足。

在树构造过程中进行剪枝,我在构造决策树的时候好讨厌那些挂着几个元素的节点。对于这种节点,干脆不考虑最好,不然很容易导致overfitting。对非离散数据都能处理,这个其实就是一个个式,看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理,这个重要也重要,其实也没那么重要,缺失数据采用一些方法补上去就是了。

(朴素贝叶斯NB) NB认为各个特征是独立的,谁也不关谁的事。所以一个样本(特征值的集合,比如“数据结构”出现2次,“文件”出现1次),可以通过对其所有出现特征在给定类别的概率相乘。比如“数据结构”出现在类1的概率为0.5,“文件”出现在类1的概率为0.3,则可认为其属于类1的概率为0.5*0.5*0.3。 (支持向量机SVM) SVM就是想找一个分类得最”好”的分类线/分类面(最近的一些两类样本到这个”线”的距离最远)。

这个没具体实现过,上次听课,那位老师自称自己实现了SVM,敬佩其钻研精神。常用的工具包是LibSVM、SVMLight、MySVM。 (Mining frequent patterns without candidate generation) 这个也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一种紧缩的数据结构来存储查找频繁项集所需要的全部信息。采用算法:将提供频繁项集的数据库压缩到一棵FP-tree来保留项集关联信息,然后将压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个条件数据库关联一个频繁项集。

K-Means是一种最经典也是使用最广泛的聚类方法,时至今日扔然有很多基于其的改进模型提出。K-Means的思想很简单,对于一个聚类任务(你需要指明聚成几个类,当然按照自然想法来说不应该需要指明类数,这个问题也是当前聚类任务的一个值得研究的课题),首先随机选择K个簇中心,然后反复计算下面的过程直到所有簇中心不改变(簇集合不改变)为止:步骤1:对于每个对象,计算其与每个簇中心的相似度,把其归入与其最相似的那个簇中。

步骤2:更新簇中心,新的簇中心通过计算所有属于该簇的对象的平均值得到。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 BIRCH也是一种聚类算法,其全称是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理论没具体实现过。是一个综合的层次聚类特征(Clustering Feature, CF)和聚类特征树(CF Tree)两个概念,用于概括聚类描述。

聚类特征树概括了聚类的有用信息,并且占用空间较元数据集合小得多,可以存放在内存中,从而可以提高算法在大型数据集合上的聚类速度及可伸缩性。 BIRCH算法包括以下两个阶段: 1)扫描数据库,建立动态的一棵存放在内存的CF Tree。如果内存不够,则增大阈值,在原树基础上构造一棵较小的树。 2)对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。

由于CF Tree的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇的大小,并且数据的输入顺序也会影响到聚类结果。因此需要对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。 AdaBoost做分类的一般知道,它是一种boosting方法。这个不能说是一种算法,应该是一种方法,因为它可以建立在任何一种分类算法上,可以是决策树,NB,SVM等。

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的...

以下为关联文档:

Hash算法原理哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。 哈希算法用来产生一些数据片段(例如消息或会话项)的哈希值的算法。使用好的哈希...

什么是哈希hash算法*nix系系统:ES(Unix) 例子: IvS7aeT4NzQPM 说明:Linux或者其他linux内核系统中 长度: 13 个字符 描述:第1、2位为salt,例子中的'Iv'位salt,后面的为hash值 系统:MD5(Unix) 例子:$1$12...

什么是哈希算法举个更形象点的例子。 这东西其实就像字典(其实就是)。你给出来的字符串是一个单词,他在字典里面所属的条目是A-Z其中一个字母。不管你给的单词有多长,他总属于字典中某一个目录...

什么是哈希算法。。什么是哈希运算? 哈希函数是一个数学方程式,它可用文本(如电子邮件信息)来生成称为信息摘要的代码。著名的哈希函数如:MD4,MD5,SHS。 用于数字鉴别的哈希函数必须有特定的属性,使...

数据结构哈希算法H(22)=(3*22)mod 11=0; H(41)=2; H(53)=5; H(46)=6; H(30)=2;冲突;H1=(H(key)+d1)MOD m = (2+1((7*30)MOD 10+1)) MOD 11=3; H(13)=6;冲突;H1=(6+1(1+1))=8; H(01)=3;冲突;H1=(3+1...

问房地产投资回报率的标准算法房产的投资回报率,是用来衡量 一处房产是否值得投资的重要参考数 据.一般而言,有有两种计算形式: 1.投资回报率分析计算公式:投 资回报率=(税后月租金-物业管理 费)*12/购买房屋单...

数据挖掘技术主要包括哪些数据挖掘技术主要有决策树 、神经网络 、回归 、关联规则 、聚类 、贝叶斯分类6中。 1、决策树技术。 决策树是一种非常成熟的、普遍采用的数据挖掘技术。在决策树里,所分析...

用于数据挖掘的分类算法有哪些各有何优劣1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据...

数据挖掘中分类和聚类有什么区别你好,简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事...

推荐阅读
图文推荐