机器学习小白手推一元线性回归[附代码]

admin • 2022-12-19 20:10 • 人工智能

手推一元线性回归【机器学习小白】

手推一元线性回归（附代码）

手推一元线性回归（附代码）

引言

由于经常做运维和编程工作，线性代数知识已经多年没有用了，基本已还给老师，线性回归的思路也是机器学习的基本思路，所以打算复习一下。顺便做个一元线性笔记，忘记的时候可以拿出来回顾一下。

本文主要以手推为主，程序作为辅助，程序语言选用python。

线性回归

提出问题

根据下表内容，预测指定年龄的儿童体重。例如：预测表中没有的，19岁儿童的标准体重。

用例说明

为方便手工推算计算，我取表中标准体重的前5个数据：[10.05,12.54,14.65,16.64,18.98]，分别对应1岁到5岁年龄。

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

#体重
weights=[10.05,12.54,14.65,16.64,18.98]
#年龄
ages=[1,2,3,4,5]
df=pd.DataFrame()
df['age']=ages
df['weight']=weights
# 散点图
df.plot(kind='scatter', x='age', y='weight', c=None, s=15) # s：点的大小  c：点的颜色 c =np.squeeze(colors)
plt.title(u'儿童年龄体重对照', fontsize=15,fontdict=dict(family='KaiTi')) #楷体
plt.show()

分布图如下,看上去像是某种线性关系：

如果要预测儿童6岁时的体重，我们可以根据中学的知识，把这线散点拟合成直线方程：

y = ax + b

然后把6代入方程就可以预测出6岁时的体重。这就是线性回归。

一元线性回归就是找一条直线，并且让图中的散点尽可能靠近这条直线

我们先随手画直线：

这又面临另一个问题：到底是红色直线更能拟合图中的散点？还是黄色直线？又或是其他直线呢？
解决这个问题就需要引入最小二乘法

假设我们的拟合直线为：

(

)

2.25

7.73

f(x)=2.25x+7.73

$f (x) = 2.25 x + 7.73$

根据上面的例子，把5个样本（即1岁到5岁标准体重）分别代入上述方程可以得出5个预测结果：

(

)

2.25

7.73

9.98

hat{y_1}=f(x_1)=2.25times1+7.73=9.98

$y_{1}^= f (x_{1}) = 2.25 \times 1 + 7.73 = 9.98$

(

)

2.25

7.73

12.23

hat{y_2}=f(x_2)=2.25times2+7.73=12.23

$y_{2}^= f (x_{2}) = 2.25 \times 2 + 7.73 = 12.23$

(

)

2.25

7.73

14.48

hat{y_3}=f(x_3)=2.25times3+7.73=14.48

$y_{3}^= f (x_{3}) = 2.25 \times 3 + 7.73 = 14.48$

(

)

2.25

7.73

16.73

hat{y_4}=f(x_4)=2.25times4+7.73=16.73

$y_{4}^= f (x_{4}) = 2.25 \times 4 + 7.73 = 16.73$

(

)

2.25

7.73

18.98

hat{y_5}=f(x_5)=2.25times5+7.73=18.98

$y_{5}^= f (x_{5}) = 2.25 \times 5 + 7.73 = 18.98$

数学中的估计值一般用上面带尖的符号表示，如：

hat{theta}

$θ^$ , 读作theta hat。

##使用程序计算

上面为手算结果，很慢，且累。这才用了5个数据样本，现实中的数据远比这个多得多，所以需要程序辅助。
接上面的程序

y_head5_predict=([2.25*x+7.73 for x in df['age']]) #拟合结果

y_head5_predict的计算结果，即方程:

(

)

2.25

7.73

f(x)=2.25x+7.73

$f (x) = 2.25 x + 7.73$ 的预测结果

[9.98, 12.23, 14.48, 16.73, 18.98]

与真实结果做个对比

[ 9.98, 12.23, 14.48, 16.73, 18.98]
[10.05, 12.54, 14.65, 16.64, 18.98]

最小二乘法

损失函数

可以发现上面的预测结果与真实数据存在误差，毕竟预测结果是方程算出的嘛，和真实值当然会不一样了。那么如何来恒量这个误差呢？

残差公式

(

)

−

e=f(x_i)-y_i

$e = f (x_{i}) - y_{i}$

把预测值与真实值相减便得出了这个误差。也可以写成这样：

−

hat{y_i}-y_i=epsilon

$y_{i}^- y_{i} = ϵ$
但是这种算的结果有时是负数，计算起来不方便，于是就把它作平方处理。

损失函数原型

和方差（SSE）

∑

(

−

)

SSE=sum_{i=1}^{m}(y_i-hat{y_i})^2

$S S E = \sum_{i = 1 m} (y_{i} - y_{i}^)^{2}$

均方误差（MSE）

∑

(

−

)

MSE=frac{SSE}{N}=frac{1}{N}sum_{i=1}^{m}(y_i-hat{y_i})^2

$M S E = \frac{S S E}{N} = \frac{1}{N} \sum_{i = 1 m} (y_{i} - y_{i}^)^{2}$

均方根（RMSE）

∑

(

−

)

Large RMSE=sqrt{MSE}=sqrt{frac{1}{N}sum_{i=1}^{m}(y_i-hat{y_i})^2}

$R M S E = M S E$

=N1∑i=1m(yi−yi^)2

总之，这些公式的值最越小，说明损失越小，线性方程就能更好地拟合样本数据。

参数估计——最小二乘法

以上面例子的方程：

(

)

f(x)=ax+b

$f (x) = a x + b$
找出最合适的参数a和b，就是展开后：

(

)

∑

(

−

)

∑

(

−

(

)

f(a,b)=sum_{i=1}^{m}(y_i-hat{y_i})^2=sum_{i=1}^{m}(y_i-(ax_i+b))^2

$f (a, b) = \sum_{i = 1 m} (y_{i} - y_{i}^)^{2} = \sum_{i = 1 m} (y_{i} - (a x_{i} + b))^{2}$
然后求出这个函数的最小值，这就是求线性回归的最小二乘法。
根据微积分知识，就是把函数

(

)

f(a,b)

$f (a, b)$ 分别对a和b求偏导，然后令偏导等于0。

对参数a的求导过程

令

−

(

)

u=y_i-(ax_i+b)

$u = y_{i} - (a x_{i} + b)$ ，根据链式法则(注意：x、y和b看成常数)：

(

∑

(

−

(

)

′

big(sum_{i=1}^{m}(y_i-(ax_i+b))^2big)prime

$(\sum_{i = 1 m} (y_{i} - (a x_{i} + b))^{2})'$

∑

(

−

(

)

(

−

(

)

′

=sum_{i=1}^{m}2(y_i-(ax_i+b))(y_i-(ax_i+b))prime

$= \sum_{i = 1 m} 2 (y_{i} - (a x_{i} + b)) (y_{i} - (a x_{i} + b))'$

∑

(

−

(

)

(

′

−

(

)

′

−

′

)

=sum_{i=1}^{m}2(y_i-(ax_i+b))(y_iprime-(ax_i)prime-bprime)

$= \sum_{i = 1 m} 2 (y_{i} - (a x_{i} + b)) (y_{i}' - (a x_{i})' - b')$

∑

(

−

(

)

(

−

)

=2sum_{i=1}^{m}(y_i-(ax_i+b))(0-x_i-0)

$= 2 \sum_{i = 1 m} (y_{i} - (a x_{i} + b)) (0 - x_{i} - 0)$

∑

(

−

)

=2sum_{i=1}^{m}(ax_i+b-y_i)x_i

$= 2 \sum_{i = 1 m} (a x_{i} + b - y_{i}) x_{i}$

对参数b的求导过程

令

−

(

)

u=y_i-(ax_i+b)

$u = y_{i} - (a x_{i} + b)$ ，根据链式法则(注意：x、y和a看成常数)：

(

∑

(

−

(

)

′

big(sum_{i=1}^{m}(y_i-(ax_i+b))^2big)prime

$(\sum_{i = 1 m} (y_{i} - (a x_{i} + b))^{2})'$

∑

(

−

(

)

(

−

(

)

′

=sum_{i=1}^{m}2(y_i-(ax_i+b))(y_i-(ax_i+b))prime

$= \sum_{i = 1 m} 2 (y_{i} - (a x_{i} + b)) (y_{i} - (a x_{i} + b))'$

∑

(

−

(

)

(

′

−

(

)

′

−

′

)

=sum_{i=1}^{m}2(y_i-(ax_i+b))(y_iprime-(ax_i)prime-bprime)

$= \sum_{i = 1 m} 2 (y_{i} - (a x_{i} + b)) (y_{i}' - (a x_{i})' - b')$

∑

(

−

(

)

(

−

)

=2sum_{i=1}^{m}(y_i-(ax_i+b))(0-0-1)

$= 2 \sum_{i = 1 m} (y_{i} - (a x_{i} + b)) (0 - 0 - 1)$

∑

(

−

)

=2sum_{i=1}^{m}(ax_i+b-y_i)

$= 2 \sum_{i = 1 m} (a x_{i} + b - y_{i})$

估算参数

解如下方程组：

{

∂

∑

(

−

)

∂

∑

(

−

)

begin{cases} frac{partial}{partial{a}}epsilon=2sum_{i=1}^{m}(ax_i+b-y_i)x_i=0\ frac{partial}{partial{a}}epsilon=2sum_{i=1}^{m}(ax_i+b-y_i)=0 end{cases}

${\frac{\partial}{\partial a} ϵ = 2 \sum_{i = 1 m} (a x_{i} + b - y_{i}) x_{i} = 0 \frac{\partial}{\partial a} ϵ = 2 \sum_{i = 1 m} (a x_{i} + b - y_{i}) = 0$
(长时间没用过高数，只能用笨办法)
式子1展开、转化：

∑

(

−

)

sum_{i=1}^{m}(ax_i+b-y_i)x_i=0

$\sum_{i = 1 m} (a x_{i} + b - y_{i}) x_{i} = 0$

∑

(

−

)

sum_{i=1}^{m}(ax_i^2+bx_i-y_ix_i)=0

$\sum_{i = 1 m} (a x_{i 2} + b x_{i} - y_{i} x_{i}) = 0$

∑

−

∑

sum_{i=1}^{m}ax_i^2+sum_{i=1}^{m}bx_i-sum_{i=1}^{m}y_ix_i=0

$\sum_{i = 1 m} a x_{i 2} + \sum_{i = 1 m} b x_{i} - \sum_{i = 1 m} y_{i} x_{i} = 0$

∑

−

∑

asum_{i=1}^{m}x_i^2+bsum_{i=1}^{m}x_i-sum_{i=1}^{m}y_ix_i=0

$a \sum_{i = 1 m} x_{i 2} + b \sum_{i = 1 m} x_{i} - \sum_{i = 1 m} y_{i} x_{i} = 0$

式子2展开、转化：

∑

(

−

)

sum_{i=1}^{m}(ax_i+b-y_i)=0

$\sum_{i = 1 m} (a x_{i} + b - y_{i}) = 0$

∑

−

∑

sum_{i=1}^{m}ax_i+sum_{i=1}^{m}b-sum_{i=1}^{m}y_i=0

$\sum_{i = 1 m} a x_{i} + \sum_{i = 1 m} b - \sum_{i = 1 m} y_{i} = 0$

∑

−

∑

asum_{i=1}^{m}x_i+mb-sum_{i=1}^{m}y_i=0

$a \sum_{i = 1 m} x_{i} + m b - \sum_{i = 1 m} y_{i} = 0$

初中知识，用代入消元法：
转化式子2：

∑

−

∑

−

Large b=frac{sum_{i=1}^{m}y_i}{m}-frac{asum_{i=1}^{m}x_i}{m}=bar{y}-abar{x}

$b = \frac{\sum _{i = 1 m} y _{i}}{m} - \frac{a \sum _{i = 1 m} x _{i}}{m} = y ˉ - a x ˉ$
代入式子1：

∑

(

−

)

∑

−

∑

asum_{i=1}^{m}x_i^2+(bar{y}-abar{x})sum_{i=1}^{m}x_i-sum_{i=1}^{m}y_ix_i=0

$a \sum_{i = 1 m} x_{i 2} + (y ˉ - a x ˉ) \sum_{i = 1 m} x_{i} - \sum_{i = 1 m} y_{i} x_{i} = 0$

∑

−

∑

−

∑

asum_{i=1}^{m}x_i^2+bar{y}sum_{i=1}^{m}x_i-abar{x}sum_{i=1}^{m}x_i-sum_{i=1}^{m}y_ix_i=0

$a \sum_{i = 1 m} x_{i 2} + y ˉ \sum_{i = 1 m} x_{i} - a x ˉ \sum_{i = 1 m} x_{i} - \sum_{i = 1 m} y_{i} x_{i} = 0$

(

∑

−

∑

)

∑

−

∑

a(sum_{i=1}^{m}x_i^2-bar{x}sum_{i=1}^{m}x_i)+bar{y}sum_{i=1}^{m}x_i-sum_{i=1}^{m}y_ix_i=0

$a (\sum_{i = 1 m} x_{i 2} - x ˉ \sum_{i = 1 m} x_{i}) + y ˉ \sum_{i = 1 m} x_{i} - \sum_{i = 1 m} y_{i} x_{i} = 0$

∑

−

∑

−

∑

Large a=frac{sum_{i=1}^{m}y_ix_i-bar{y}sum_{i=1}^{m}x_i}{sum_{i=1}^{m}x_i^2-bar{x}sum_{i=1}^{m}x_i}

$a = \frac{\sum _{i = 1 m} y _{i} x _{i} - y ˉ \sum _{i = 1 m} x _{i}}{\sum _{i = 1 m} x _{i 2} - x ˉ \sum _{i = 1 m} x _{i}}$
到这里，把样本数据代入函数已经可以算出参数a的值了。
上代码：

# 最小二乘法估出参数
x_bar = np.mean(ages)
y_bar = np.mean(weights)
a_param = np.dot(ages, weights) - y_bar * np.sum(ages)
a_param = a_param / (np.sum(np.square(ages)) - x_bar * np.sum(ages))
b_param = y_bar - a_param * x_bar

参数a的结果，即斜率：

2.1960000000000037

参数b的结果，即截距：

7.9839999999999876

估算过程补充说明

公式
$a=frac{sum_{i=1}^{m}y_ix_i-bar{y}sum_{i=1}^{m}x_i}{sum_{i=1}^{m}x_i^2-bar{x}sum_{i=1}^{m}x_i} a=∑i=1mxi2−xˉ∑i=1mxi∑i=1myixi−yˉ∑i=1mxi 这个公式若使用手算还可以再转化： a = ∑ i = 1 m y i x i − 1 m ∑ i = 1 m y i ∑ i = 1 m x i ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i Large a=frac{sum_{i=1}^{m}y_ix_i-frac{1}{m}sum_{i=1}^{m}y_isum_{i=1}^{m}x_i}{sum_{i=1}^{m}x_i^2-bar{x}sum_{i=1}^{m}x_i} a=∑i=1mxi2−xˉ∑i=1mxi∑i=1myixi−m1∑i=1myi∑i=1mxi a = ∑ i = 1 m y i x i − x ˉ ∑ i = 1 m y i ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i Large a=frac{sum_{i=1}^{m}y_ix_i-bar{x}sum_{i=1}^{m}y_i}{sum_{i=1}^{m}x_i^2-bar{x}sum_{i=1}^{m}x_i} a=∑i=1mxi2−xˉ∑i=1mxi∑i=1myixi−xˉ∑i=1myi a = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i Large a=frac{sum_{i=1}^{m}y_i(x_i-bar{x})}{sum_{i=1}^{m}x_i^2-bar{x}sum_{i=1}^{m}x_i} a=∑i=1mxi2−xˉ∑i=1mxi∑i=1myi(xi−xˉ)$
代码说明

np.dot(ages, weights)

这行代码为向量的点乘（内积），公式如下：

若有向量：

[

…

]

a=[a_1,a_2,a_3,ldots,a_n]

$a = [a_{1}, a_{2}, a_{3}, \dots, a_{n}]$

[

…

]

b=[b_1,b_2,b_3,ldots,b_n]

$b = [b_{1}, b_{2}, b_{3}, \dots, b_{n}]$

向量a和b的点积公式为：

⃗

∙

⃗

…

Large vec{a}bulletvec{b}=a_1b_1+a_2b_2+a_3b_3+ldots+a_nb_n

$a$

∙b

=a1b1+a2b2+a3b3+…+anbn
所以

∑

sum_{i=1}^{m}y_ix_i

$\sum_{i = 1 m} y_{i} x_{i}$ 可以用向量点乘方式来计算。

用程序验证手推结果

下面用sklearn的线性回归模型验证上面的推导结果：

# 验证上面手推最小二乘法的结果
# sklearn中，数据都应该是二维矩阵,这里需要转换
x_train = np.array(ages).reshape(-1, 1)
y_train = np.array(weights).reshape(-1, 1)
lr = LinearRegression()
lr.fit(x_train, y_train)
print("斜率:", lr.coef_)
print("截距:", lr.intercept_)

代码输出结果

斜率: [[2.196]]
截距: [7.984]

至此，一元线性回归模型的手工推导完成。要预测后面的结果只需代入函数：

(

)

2.196

7.984

Large f(x_i)=2.196x_i+7.984

$f (x_{i}) = 2.196 x_{i} + 7.984$

多元线性回归

上面的例子只是用年龄来对身高作出预测，输入就只有年龄这一项，在现实中还可以引入多个输入项对模型进行训练。例如可以加入身高、饮食量、运动时间等。
根据一元线性回归

(

)

f(x)=ax+b

$f (x) = a x + b$
假设每个样本有d个输入项，多元线性回归变为

(

)

…

Large f(x_i)=omega_1x_{i1}+omega_2x_{i2}+ldots+omega_dx_{id}+b

$f (x_{i}) = ω_{1} x_{i 1} + ω_{2} x_{i 2} + \dots + ω_{d} x_{i d} + b$
有的会加上一个随机误差项

epsilon

$ϵ$ ，公式不一样但思想相同。

…

Large y=beta_0+beta_1x_1+beta_2x_2+ldots+beta_kx_k+epsilon

$y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + \dots + β_{k} x_{k} + ϵ$
求解过程同样是用最小二乘法找出最适合的

omega

$ω$ 和b。而

omega

$ω$ 的集合就是机器学习中高大上的参数矩阵。

(

)

Large f(x_i)=omega^Tx_i+b

$f (x_{i}) = ω^{T} x_{i} + b$
在这里x与

omega

$ω$ 都变为矩阵。而求解过程也比一元线性回归要复杂得多，这里就不做手工推算了，直接使用sklearn集成好的库，用代码体验一下。

#增加一个身高输入项
ages_highs = [
    [1, 2, 3, 4, 5],    #年龄
    [76.5,88.5,96.8,104.1,111.3]   #标准身高
    ]
x_train =np.array(ages_highs).T  #这里需要做矩阵转置
y_train = np.array(weights).reshape(-1, 1)
lr = LinearRegression()
lr.fit(x_train, y_train)
print("斜率:", lr.coef_)
print("截距:", lr.intercept_)
lr.predict([[6,117.7]])

输出结果

斜率: [[1.67268574 0.06142186]]
截距: [3.69184031]
array([[20.95730786]])

预测结果：6岁，标准身高为117.7的儿童，体重为20.957。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

python 最小二乘法

二维码

对话ai-4

< <上一篇

对话ai-6

下一篇>>

搜索内容

机器学习小白手推一元线性回归[附代码]

手推一元线性回归【机器学习小白】

手推一元线性回归（附代码）

引言

线性回归

提出问题

用例说明

最小二乘法

损失函数

残差公式

损失函数原型

和方差（SSE）

均方误差（MSE）

均方根（RMSE）

参数估计——最小二乘法

对参数a的求导过程

对参数b的求导过程

估算参数

估算过程补充说明

用程序验证手推结果

多元线性回归

最新文章

分类

标签云