吃瓜教程 | 学习笔记–第一章 绪论

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

机器学习它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法’'. 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;.如果说计算机科学是研究关于"算法"的学问,那么类似的,可以说机器学习是研究关于"学习算法"的学问.


一、基础术语

数据集 :是将一类实体的所具有的特征的集合,在数据库中,数据集又叫实体型,其中每一条的数据又叫元组。
属性 :反映事件或对象在某方面的表现或性质的事项。
样本空间 :属性张成的空间。例如,把"色泽" “根蒂” “敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间。
训练样本 :训练过程中使用的数据称为"训练数据” (training data)。
标记空间 :一般地,用(Xi, Yi) 表示第 i个样例 其中执 yi ε Y 是示例 Xi 的标记,Y是所有标记的集合,亦称"标记空间" (label space)或"输出空间"。
监督学习 :若欲预测的是连续值,例如西瓜成熟度 0.95 、0.37,此类学习任务称为"回归" (regression).分类则是监督学习的代表。
非监督学习 :对西瓜做"聚类" (clustering) ,即将训练集中的西瓜分成若干
组,每组称为 个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念划分。聚类则是非监督学习的代表。
泛化能力 :学得模型适用于新样本的能力,称为"泛化" (generalization) 能力。


二、假设空间

归纳(induction) 与演绎(deduction)是科学推理的两大基本手段.
● 归纳学习:归纳是从特殊到一般的"泛化" (generalization) 过程,即从具体的事实归结出一般性规
律;
● 演绎学习:后者则是从一般到特殊的"特化" (specialization)过程,即从基础原理推演出具体状况.

我们可以把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配" 的假设,即能够将训练集中的瓜判断正确的假设.假设的表示一旦确定,假设空间及其规模大小就确定了.
要注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合",我们称之为"版本空间" (version space).

在这里插入图片描述


三、归纳偏好

在我们的训练样本中我们可能会遇到各种各样的情况,我们的电脑要在其中选出正确的情况则需要产生一个模型,我们可以理解为需要一个标准,就像我们对于鞋子的购买,我们都有自己的审美,会跟倾向于买自己喜欢的鞋子。

机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias) , 或简称为"偏好"。

任何一个有效的机器学习算法都得有它自己的归纳偏好,否则它得出的结果的选取是等效的,这样的结果可想而知是没有什么作用的。

对于一个问题的假设,我们会有很多个学习算法来辨别,对于一个特定的问题,也许会有某些学习算法表现的特别突出,然而事实上没有任何一个算法可以做到对每个问题都能很好的解决,一个算法的好坏很大一部分取决于与问题的契合度。

根据公式推理:
没有免费午餐定律根据公式显示两个算法的误差与算法无关,对于任意两个算法我们都有
在这里插入图片描述
这就是著名的没有免费的午餐定律,一个算法有多聪明,它的期望性能和其他的算法都是相同的。当然这个定律成立的重要前提是假设了f的均匀分布,实际情况当然不是这样的。


总结

以上就是第一章的大致内容,经过本章的学习,我了解到了什么是机器学习,机器学习能够为我们做什么,对于学习算法我们也不能一味的追求性能,天底下没有完美的算法,我们要多结合实际,只有这样我们的算法才有意义,要谈论算法的优劣必须要接合实际问题。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇

)">
下一篇>>