机器学习：绪论及模型评估与选择

admin • 2021-11-16 20:42 • 人工智能

文章目录

引言：

本篇笔记是已周志华老师写的《机器学习》前两章进行概述的，这次笔记仅仅只是带表了我个人的看法，其中有写的不好的地方还希望大家能够指出，以后会多多改正，争取日益进步。

第一章：绪论

1.1基本术语：

以西瓜为例，收集了一些有关西瓜的数据。（色泽=青绿；根蒂=蜷缩；敲声=浊响……）我们把色泽，根蒂，敲声称之为属性，属性的取值例如青绿，蜷缩，浊响称之为属性值。属性张成的空间我们就称为：“属性空间”，“样本空间”或“输入空间”。

如图，这就是一个属性空间。

一般，另D={X1，X2，X3……，Xm}包含了m个数据集，。每个数据集又能包含d个属性描述，Xi就是d维样本空间中的X的一个向量了，如Xij是X在第i个上的j的属性向量，d就称为样本Xi的维数。

从数据中学得模型过程称为“学习”或者“训练”，这个过程一般需要算法来进行实现。如我们需要一个模型来判断是否是一个好瓜，我们则需要得到训练样本的很多“结果”信息（色泽=“青绿”，根蒂=“蜷缩”，敲声=“浊响”，好瓜！）。称为标记，让机器来进行辨别是否是好瓜。

模型之后，使用模型进行预测的过程称为“测试”（testing),被预测的样本称为“测试样本”。

我们对西瓜进行“聚类”，即将训练集中的西瓜分为若干类，每组称为一个“簇”，每组簇能对应一些潜在的概念划分，如：“浅色瓜”，“深色瓜”。
注意：浅色瓜和深色瓜这些概念我们本来是不知道的，是系统自己归纳出来的

我们根据训练数据是否有标记信息，可以分为两类：“监督学习”和“无监督学习”，分类和回归是前者的代表，聚类则是后者的代表。

我们的目标是使学得的模型能很好的适用于“新样本”，这种能力叫“泛华能力”。即使只有一小块样本空间，但只要有很强的泛华能力，自然也可适应样本空间的特性。

1.2假设空间：

归纳和演绎是科学推理的两大基本手段。“从样例中学习”显然是一个归纳学习的过程。

概念学习最基本的是布尔概念学习，即是与不是，表示为0/1的布尔值的概念目标学习。如：

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	蜷缩	沉闷	否

此处要学习的目标是“好瓜”，我们需要判断“色泽”“根蒂”“敲声”这三个因素。来确定他是不是好瓜，也就是说好瓜等价于（色泽=？） ^ (根蒂=？） ^(敲声=？），我们就是通过学习将？的值来进行确定下来。

但是，我们仅仅是“记住”这个是“达媚”的，如果出现了一个未曾见过的，那就宣告寄了。如：色泽=纯黑。

我们把学习的过程中看做事一个在假设空间进行搜索的过程，进行匹配找到正确的假设，这就是学习。假设的表示一旦确定，那么他的规模也就确定了，如，此处我们假设空间由（色泽=？） ^ (根蒂=？） ^(敲声=？）三部分来确定。如果色泽取什么值都合适，我们就将他记做“*”。如：（色泽= *） ^ (根蒂=？） ^(敲声=？）。如果世界上没有好瓜，我们就用∅来表示它。如：西瓜问题的假设空间

1.3假设空间

当“好瓜”的标准再次上升了，如：（色泽=青绿） ^ (根蒂=蜷缩） ^(敲声=沉闷），如果采用好瓜等价于（色泽= *） ^ (根蒂=蜷缩） ^(敲声= *）我们会把他判断成好瓜，如果采用其他两个方案选择，则为烂瓜。那么该采用哪个模型呢？
接下来让我举个栗子：
如，A,B都是两个瓜，认为相似的样本应有相似的输出，我们则认为A是比B好的瓜。有没有一般性的原则来引导什么是好瓜呢？自然是有的啊