数据挖掘:分类算法

监督学习和非监督学习
首先关于监督学习和非监督学习的区别,监督学习是有一组训练集,并且训练集都标注好了类别属性,我们可以通过训练集来构建分类模型和分类标准。非监督学习的训练集则不带有类别属性,我们需要通过比较训练集的特点构建不同的集群。

分类算法(Classification)
分类算法就属于前文提到的监督学习中的一种,我们需要通过已知类别属性的训练集来构建分类模型,通过构建好的模型对未知类别属性的数据进行预测。所以分类算法大致包含三部分:模型构建,模型的检测和模型使用。

决策树归纳

决策树归纳,顾名思义是构建一颗类似树结构的分类模型。

信息熵。
信息增益就是两者的差,对每一个属性计算他的信息增益,选取最大的一个构建分支。
之后对每个分支采用相同的方法进行分类,知道D的信息熵为0,也就是分类后所有数据的D值相同,结束分类。或者当所有属性都用完之后,还有一些分支信息熵不为0,这个时候就只能进行统计,然后选取数量较多的值作为最终值。
 

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>