PRML绪论笔记

admin • 2023-02-13 19:57 • 人工智能

PRML绪论笔记

绪论
- 多项式曲线拟合
- 概率论

绪论

绪论中首先指出“寻找数据中的模式问题是一个基本问题”。作者通过手写数字识别举了一个例子：手写体变化多端，我们如何正确的将手写数字识别出来呢？
可能有人说，我们直接写程序给它设定规则就可以了，然而，由于总有我们考虑不到的手写体，每当发现新的程序识别不了的字符，我们必须增加新的规则，这就导致了规则的激增。比如下面的两个2，我们很难通过人工设定规则。

或者这么理解，我们希望有一个映射，可以将输入的图像，映射成对应的数字。人工方法设定的映射函数可能会非常庞大，因此我们需要探索更省力、效率更高的方法，那就是机器学习。

机器学习方法中，由N个数字图像

{

⋯

}

{x_1,cdots,x_N}

${x_{1}, \dots, x_{N}}$ 组成的集合叫做训练集(training set)，用来调节映射的参数。每个图像对应的数字都是已知的，使用目标向量(target vector)

$t$ 来表示数字的类别标签。机器学习方法同样可以成是一个映射函数

(

)

f(x)

$f (x)$ ，他以图像

$x$ 为输入，以向量

$y$ 为输出。这里输出的

$y$ 向量形式与目标向量

$t$ 的形式相同。

训练阶段：确定函数
测试阶段：使用函数
泛化问题：对训练集之外的数据的预测性能。
另外原始的数字图像可能需要转换为新的变量空间（预处理）。如将图像转换为向量。如果训练图像进行了预处理，测试图像也需要进行相同的预处理。
训练数据的样本包含输入向量以及对应目标向量的应用叫做有监督学习（supervised learning）问题。训练数据由一组输入向量

多项式曲线拟合

从

(

)

sin(2pi)

$s in (2 π)$ 这个函数在0到1之间均匀取样，取样过程附加符合高斯分布的噪声，训练数据集由

$x$ 的

$N$ 次观测组成，

≡

(

⋯

)

xequiv(x_1,cdots,x_N)^T

$x \equiv (x_{1}, \dots, x_{N})^{T}$ ，观测值

$t$ 记作

≡

(

⋯

)

tequiv(t_1,cdots,t_N)

$t \equiv (t_{1}, \dots, t_{N})$ 。
现在假如我们只有训练数据集

$x$ 和观测值集合

$t$ ，如何预测新的

hat{x}

$x^$ 的目标变量

hat{t}

$t^$ 。由于数据采样存在干扰，因此对于一个给定的

hat{x}

$x^$ ，

hat{t}

$t^$ 具有不确定性。作者使用多项式函数来进行曲线拟合。

(

)

⋯

∑

y(x,w)=w_0+w_1x+w_2x^2+cdots+w_Mx^M=sum_{j=0}^{M}w

$y (x, w) = w_{0} + w_{1} x + w_{2} x^{2} + \dots + w_{M} x^{M} = j = 0 \sum M w$ 其中

$M$ 是多项式的阶数，

x^j

$x^{j}$ 表示

$x$ 的

$j$ 次幂。多项式系数

⋯

w_0,cdots,w_M

$w_{0}, \dots, w_{M}$ 整体记作向量

boldsymbol{w}

$w$ 。注意：虽然多项式函数

y

(

x

,

w

)

y(x,boldsymbol{w})

$y (x, w)$ 是

x

x

$x$ 的一个非线性函数，但它是系数

w

boldsymbol{w}

$w$ 的一个线性函数。
要想找到合适的

boldsymbol{w}

$w$ 的值，需要使用最小化误差函数(error function)实现。例如每个数据点

x_n

$x_{n}$ 的预测值

(

)

y(x_n,boldsymbol{w})

$y (x_{n}, w)$ 与目标值

t_n

$t_{n}$ 差的平方和。最小化error function就可以找到合适的

boldsymbol{w}

$w$ 。

(

)

∑

{

(

)

−

}

E(boldsymbol{w})=frac{1}{2}sum_{n=1}^N{y(x_n,boldsymbol{w})-t_n}^2

$E (w) = \frac{1}{2} n = 1 \sum N {y (x_{n}, w) - t_{n}}^{2}$ 这是一个非负量，如果所有值都预测正确，误差函数

(

)

E(x)=0

$E (x) = 0$ 。
误差函数是

boldsymbol{w}

$w$ 的二次函数，求导可得一个唯一解，这个解就是误差函数的最小值解

∗

boldsymbol{w^*}

$w^{*}$ 。
下面还有一个问题需要解决，那就是多项式阶数

$M$ 的取值，也就是

boldsymbol{w}

$w$ 这个向量取多长。

概率论

加和规则：

(

)

∑

(

)

p(X)=sum_Yp(X,Y)

$p (X) = Y \sum p (X, Y)$
乘积规则：

(

)

(

∣

)

(

)

p(X,Y)=p(Y|X)p(X)

$p (X, Y) = p (Y ∣ X) p (X)$
根据乘积规则，以及对称性

(

)

(

)

p(X,Y)=p(Y,X)

$p (X, Y) = p (Y, X)$ ，可以得到两个条件概率之间的关系：

(

)

(

)

(

∣

)

(

)

(

∣

)

(

)

(

∣

)

(

∣

)

(

)

(

)

p(X,Y)=p(Y,X)\ p(Y|X)p(X)=p(X|Y)p(Y)\ p(Y|X)=frac{p(X|Y)p(Y)}{p(X)}

$p (X, Y) = p (Y, X) p (Y ∣ X) p (X) = p (X ∣ Y) p (Y) p (Y ∣ X) = \frac{p ( X ∣ Y ) p ( Y )}{p ( X )}$
这就是贝叶斯定理，根据加和规则上述结果可以写作：

(

∣

)

(

∣

)

(

)

∑

(

)

p(Y|X)=frac{p(X|Y)p(Y)}{sum_Yp(X,Y)}

$p (Y ∣ X) = \frac{p ( X ∣ Y ) p ( Y )}{\sum _{Y} p ( X , Y )}$
在多项式曲线拟合例子中的参数

boldsymbol{w}

$w$ ，我们观察到数据之前，对

boldsymbol{w}

$w$ 有一些假设，这以先验概率

(

)

p(boldsymbol{w})

$p (w)$ 的形式给出。观测数据

{

⋯

}

D={t_1,cdots,t_N}

$D = {t_{1}, \dots, t_{N}}$ 的效果可以通过条件概率

(

∣

)

p(D|boldsymbol{w})

$p (D ∣ w)$ 表达，使用贝叶斯定理来表示多项式曲线拟合问题：

(

∣

)

(

∣

)

(

)

(

)

p(boldsymbol{w}|D)=frac{p(D|boldsymbol{w})p(boldsymbol{w})}{p(D)}

$p (w ∣ D) = \frac{p ( D ∣ w ) p ( w )}{p ( D )}$ 它让我们能够通过后验概率

(

∣

)

p(boldsymbol{w} | D)

$p (w ∣ D)$ ，在观测到

$D$ 之后估计

boldsymbol{w}

$w$ 的不确定性。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

概率论深度学习

二维码

C/C++：预处理(下)

< <上一篇

ctr 校准纠偏,保序回归

下一篇>>

搜索内容

PRML绪论笔记

PRML绪论笔记

绪论

多项式曲线拟合

概率论

最新文章

分类

标签云