线性模型,SVM,决策树

机器学习复习2

线性模型,虽为回归,但是分类

单一属性线性回归:

目的:学得一个线性模型以尽可能准确地预测实值输出标记

最小二乘法:均方误差分别对w和b求导得到闭式解

多元线性回归:

其他相同

不是满秩矩阵,多个解,怎么选? 

根据归纳偏好选择解或引入正则化:对解空间的一种限制

优点:形式简单,易于建模,可解释性强,非线性模型的基础(引入层级结构或高维映射)

缺点:对异常点鲁棒性差,随机取样一致,鲁棒回归?

线性并不指对输入变量的线性,而是指对参数空间的线性,线性模型完全具有描述非线性的能力,通用非线性化方法:核学习方法

对数线性回归:输出标记的对数为线性模型逼近的目标

广义线性模型:联系函数-单调可微函数

Logistic回归:

寻找函数将分类标记与线性回归模型输出联系起来,最理想的函数——单位阶跃函数,缺点:不连续,替代函数——对数几率函数

对数几率:样本作为正例的相对可能性的对数

对数几率回归优点:无需事先假设数据分布,可得到“类别”的近似概率预测,可直接应用现有数值优化算法求取最优解

极大似然法确定参数

线性判别分析:LDA也可被视为一种监督降维技术

思想:同类样例的投影点的协方差尽可能小,类中心之间的距离尽可能大

LDA的贝叶斯决策论解释,两类数据同先验、满足高斯分布且协方差相等时,LDA达到最优分类

多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,因此LDA也被视为一种监督降维技术

多分类学习:对问题进行拆分,为拆出的每个二分类任务训练一个分类器,对于每个分类器的预测结果进行集成以获得最终的多分类结果

拆分策略:一对一,一对其余,多对多

OvO:两两配对,训练各个二分类任务分类器,新样本提交给所有分类器预测,投票产生最终分类结果

OvR:某一类作为正例,其他反例,训练各个二分类任务分类器,新样本提交给所有分类器预测,比较各分类器预测置信度

OvO的存储开销和测试时间开销通常比OvR大,类别多时,OvO的训练时间开销通常比OvR小,预测性能差不多

纠错输出码(ECOC):编码与解码,根据编码预测,距离最小的类别为最终类别

ECOC编码对分类器错误有一定容忍和修正能力,编码越长、纠错能力越强,对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强

类别不平衡,不同类别训练样例数相差很大情况(正类为小类)

再缩放:欠采样:去除一些反例使正反例数目接近,过采样(样本复制,样本插值,样本生成):增加一些正例使正反例数目接近,阈值移动

SVM:

函数间隔:|w·x+b|表示分类预测的确信程度,w·x+b与类标记y的符号是否一致表示分类是否正确,y(w·x+b)表示分类的正确性和确信度

当成比例改变w和b,超平面不变,但函数间隔会变化

几何间隔:

SVM基本型:线性可分支持向量机学习的最优化问题--凸二次规划

硬间隔最大化:输入线性可分训练数据集,输出最大间隔分离超平面和分类决策函数

拉格朗日对偶优点:对偶问题往往容易解,引入核函数,推广到非线性分类问题

分类决策函数只依赖于输入x和训练样本输入的内积,称为线性可分支 持向量机的对偶形式。

将数据集中对应于拉格朗日乘子大于0的x称为支持向量,支持向量一定在分割边界上

支持向量机解的稀疏性: 训练完成后, 大部分的训练样本都不需保留, 最终模型仅与支持向量有关.

在线性可分情况下,训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量,支持向量是使约束条件式等号成立的点

正例,负例,间隔,间隔边界

拉格朗日乘子的求解:SMO,是二次规划问题,其规模正比于训练样本数,在实际中开销很大。

基本思路:不断执行如下两个步骤直至收敛:第一步:选取一对需更新的变量i和j,第二步:固定i和j 以外的参数, 求解对偶问题更新i和j

软间隔最大化:线性不可分情况下允许支持向量机在一些样本上不满足间隔大于等于1的约束,输入:线性不可分训练数据集,输出:分离超平面和分类决策函数

优化目标的两层含义:1.间隔尽量大 2. 不满足约束样本尽可能少

C惩罚参数,超参数,调和作用,b不唯一 

另一种解释:最大化间隔的同时, 让不满足约束的样本应尽可能少

0/1损失不易优化求解,合页损失为“替代损失”

前者描述训练集上的误差,后者描述间隔大小

前者为结构风险,描述模型的某些性质,正则化项,后者为经验风险,描述模型与训练数据的契合程度,通过替换上面两个部分, 可以得到许多其他学习模型

若不存在一个能正确划分两类样本的线性超平面,则将样本从原始空间映射到一个更高维的特征空间, 使得样本在这个特征空间内线性可分.

可以不知道𝜙(𝑥)的显式表达,只要知道一个如下所示的核函数,则优化式依然可解。

常用核函数:线性核,多项式核,高斯核,拉普拉斯核,Sigmoid核

特征空间的选择对SVM的性能至关重要,文本数据通常采用线性核,情况不明时可先尝试高斯核

SVM决策函数:

不考虑偏移项b,SVM学得的模型可以表示成核函数的线性组合.

表示定理:线性模型的”核化”

支持向量回归:允许模型输出和实际输出间存在间隔带偏差.落入中间间隔带的样本不计算损失, 从而使得模型获得稀疏性.

决策树:决策树基于树结构来进行预测,可用于分类任务和回归任务

划分选择:决策树学习的关键在于如何选择最优划分属性

纯度反映目标变量的混乱(分歧)程度,随着划分过程不断进行,结点的“纯度”越来越高

属性划分方法: 信息增益,增益率,基尼指数

信息熵:表示信息的不确定度

p=0时,为0

当不确定性越大时,它所包含的信息量也就越大,信息熵也就越高

信息增益:指的就是划分可以带来纯度的提高,信息熵的下降。它的计算公式,是父节点的信息熵减去 所有子节点的归一化信息熵

分支节点权重

信息增益对可取值数目较多的属性有所偏好

增益率:

IV(a)称为固有值,属性a的可能取值数目越多,值通常就越大

增益率准则对可取值数目较少的属性有所偏好

启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选取增益率最高的

基尼指数:反映了从中随机抽取两个样本,其类别标记不一致的概率

基尼值越小,纯度越高

剪枝处理:防止过拟合

基本策略:预剪枝和后剪枝

判断决策树泛化性能是否提升的方法,留出法:预留一部分数据用作“验证集”以进行性能评估

预剪枝:决策树生成过程中,对每个结点在划分前先进行估计,若当前结 点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点 记为叶结点,其类别标记为训练样例数最多的类别

分别计算划分前(即直接将该结点作为叶结点)及划分后的 验证集精度,判断是否需要划分

后剪枝:先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点

连续值处理:连续属性离散化

若当前结点划分属性为连续属性,该属性还可作为其后代结点的划分属性

缺失值处理:根据无缺失值样本进行划分属性选择,让同一个样本以不同概率划入不同的子结点中去

单变量决策树分类边界:轴平行

多变量决策树非叶节点不再是仅对某 个属性,而是对属性的线 性组合

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码

)">
< <上一篇
下一篇>>