二、机器学习基础5(损失函数、梯度下降)

损失函数

损失函数(Loss function)又叫做误差函数,用来衡量算法的运行情况.

估量模型的预测值 f (x)与真实值 Y 的不一致程度,是一个非负实值函数,通常使用L(Y,f(x))来表

示,损失函数越小,模型的鲁棒性就越好。

损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。

常见的损失函数

损失函数用来评价预测值和真实值不一样的程度。通常损失函数越好,模型的性能也越好。

损失函数可分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和
实际结果的差别,结构风险损失函数是在经验风险损失函数上加上正则项。

(1)0-1 损失函数

(2)绝对值损失函数

(3)平方损失函数

(4)log 对数损失函数(常用于逻辑回归)

(5)指数损失函数(例 AdaBoost)

(6)Hinge 损失函数

逻辑回归为什么使用对数损失函数

对数损失函数与极大似然估计的对数似然函数本质上是相同的。所以逻辑回归直接采用对数损失函数。

机器学习中梯度下降法

在机器学习中,梯度下降法主要有随机梯度下降法批量梯度下降法

调整梯度下降法的几种方式

算法迭代步长的选择;参数的初始值选择;标准化处理。

随机梯度和批量梯度区别

随机梯度下降法、批量梯度下降法相对来说都比较极端,简单对比如下:
批量梯度下降:
a)采用所有数据来梯度下降。
b) 批量梯度下降法在样本量很大的时候,训练速度慢。

随机梯度下降:
a) 随机梯度下降用一个样本来梯度下降。
b) 训练速度很快。
c) 随机梯度下降法仅仅用一个样本决定梯度方向,导致解有可能不是最优。                                 d) 收敛速度来说,随机梯度下降法一次迭代一个样本,导致迭代方向变化很大,不能很快的收敛到局部最优解。

小批量(mini-batch ) 梯度下降法

对比随机梯度下降(SGD)、批量梯度下降(BGD)、小批量梯度下降(mini-batch GD)、和online GD 

Online GD 于 mini-batch GD/SGD 的区别在于,所有训练数据只用一次,然后丢弃。这样做的优点在于可预测最终模型的变化趋势。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
https://jq.qq.com/?_wv=1027&k=Pyynn39g

)">
下一篇>>