西瓜书第三章
第三章 线性模型
3.1
- 线性回归:在同一个横坐标上,预测直线在此点的值与真实值直接的差距。
- 正交回归:真实值点对预测直线做垂线,该垂线的距离。
3.2
-
若属性值之间不存在序关系,假定有K个属性值,则通常转化为K维向量,例如属性“瓜类”的取值,“西瓜”,“南瓜”,“黄瓜”可转化为(0,0,1),(0,1,0),(1,0,0)
-
基于均方误差最小化来进行模型求解的方法成为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
-
凸集:集合内任意两点的连线仍属于该集合。
-
凸函数
f
(
α
x
1
⃗
+
(
1
−
α
)
x
2
⃗
)
≤
α
f
(
x
1
⃗
)
+
(
1
−
α
)
f
(
x
2
⃗
)
f(alpha vec{x_1}+(1-alpha)vec{x_2})leqalpha f(vec{x_1})+(1-alpha)f(vec{x_2})
f(αx1
+(1−α)x2
)≤αf(x1
)+(1−α)f(x2
)
-
海瑟矩阵就是求多元函数的二阶导数
-
满秩矩阵:画梯子
正定矩阵:各顺序主子式都为正
3.3
- 对数几率回归,虽然名字是回归,但实际却是一种分类学习方法。 它不仅预测出“类别”,而是可得到近似概率预测。对率回归求解的目标函数是任意阶可导的凸函数。
-
对数几率函数(Sigmoid函数)在一定程度上近似单位阶跃函数的替代函数,并且单调连续可微,形式:
y
=
1
1
+
e
−
z
y = dfrac{1}{1+e^{- z}}
y=1+e−z1
3.5
-
多分类学习的基本思路是“拆解法”。关键是如何对多分类任务进行拆分,以及如何对多个分类器进行集成。
-
经典拆解策略:OvO(One vs. One),OvR(One vs. Rest),MvM(Many vs. Many)
-
OvR只需训练N个分类器,而OvO需训练N(N-1)/2个分类器。
OvO存储开销和测试时间开销都比OvR更大。
在类别很多时,OvO的训练时间开销通常比OvR更小。
预测性能多数情况差不多。
-
MvM是每次将若干类别作为正类,若干个其他类作为反类。最常用MvM技术:纠错输出码(Error Correcting Output Codes,ECOC)。工作过程主要两步:
编码::对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成二分类训练集;这样一共产生M个训练集,可训练出M个分类器。
解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码.将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果.
-
3.6
-
若
y
1
−
y
>
1
则
预
测
为
正
例
若 frac{y}{1-y}>1 则 预测为正例
若1−yy>1则预测为正例
-
若正反例样本差距较大。m+表示正例数目,m-表示反例数目。
若
y
1
−
y
>
m
+
m
−
则
预
测
为
正
例
若 frac{y}{1-y}>frac{m^+}{m^-} 则 预测为正例
若1−yy>m−m+则预测为正例
-
y
′
1
−
y
′
=
y
1
−
y
∗
m
+
m
−
frac{y'}{1-y'}=frac{y}{1-y}*frac{m^+}{m^-}
1−y′y′=1−yy∗m−m+
-
上位类别不平衡学习的基本策略——“再缩放”。
有三种做法:欠采样、过采样、将3嵌入到其他决策过程中(阈值移动)。
-
再缩放也是代价敏感学习的基础。
平衡学习的基本策略——“再缩放”。
有三种做法:欠采样、过采样、将3嵌入到其他决策过程中(阈值移动)。
- 再缩放也是代价敏感学习的基础。