人工智能导论知识归纳五
人工智能导论知识归纳五
Neural Networks
1.本章所含词汇归纳整理
Words |
翻译 |
Words |
翻译 |
Linear Classifiers |
线性分类器 |
overfitting |
过度拟合 |
Automatic Differentiation |
自动微分 |
hypothesis |
假设 |
Regularization |
正则化 |
entropy |
熵 |
Information Gain |
信息增益 |
Overfitting |
过度拟合 |
Kernels |
核心 |
Clustering |
聚类 |
Parametric |
参数化 |
Non-Linear |
非线性 |
Supervised |
有监督的 |
gibberish |
无用数据 |
iterative |
迭代 |
non-deterministic |
不确定的 |
2.线性分类器
(1)Inputs are feature values
(2)Each feature has a weight(very positive,可能性接近1,very negative,可能性接近0)
(3)Sum is the activation【启动】(positive,输出+1;negative,输出-1)
3.【考点综合题】将分数转换为可能性的办法
4.常见的激活函数:S型函数,H型函数,R型函数
5.神经网络
- Theorem:Universal Function Approximators【通用函数逼近器】
- A two-layer neural network with a sufficient【充足的】 number of neurons can approximate【逼近】 any continuous function【连续函数】 to any desired accuracy【精度要求】
- 需要注意的是大量的神经可能造成过度拟合,因此需要及早停止
- 应用:adversary game playing【对抗性游戏】,计算机视觉,自然语言进程,语音识别
6.常见的自动微分软件:Theano, TensorFlow, PyTorch, Chainer
7.实现简明性的方法
(1)减少假设空间 (2)正则化
8.【考点简答题综合题】计算熵的方法
- 熵:期望值需要在最佳最短编码下对s中随机抽取的成员的类(+或-)进行编码
- 信息理论:最佳长度编码分配比特给信息的可能性为p
- 计算公式:
- 说明:S为一系列样本,P+为positive比例,P-为negative比例
综合题目中求解熵的方法 |
|
9.【考点简答题综合题】信息增益相关内容
- 信息增益:划分之前的熵减去划分之后的熵
- 计算公式: IG(X)=H(Y)-H(Y|X)
- 注意:在决策树中在划分之后可能不止有一个熵,选择第一个划分属性是看信息增益最大
- ID3:最大信息增益,ID3尝试去划分更多的节点在更多的值上
- C4.5:最大化信息增益率
10. 【考点简答题】过度拟合
- 过度拟合的概念:在样本数据中停止建立模式,并且建立不该有的干扰
- 避免过度拟合的
- 当数据划分不在统计重要时停止增长
- 生成完整的树之后进行剪枝
- 获取最好的树的方法
- 测量样本数据表现
- 在单独的验证数据集上测量性能
- MDL:最小化
- 控制过度拟合的方法
- 对假设空间进行限制
- 正则化假设选择
11. 参数化与非参数化
参数化 |
非参数化 |
|
|
注意:K-NN是一种无参数化模型!!! |
12.非线性分隔符的总体思路:许多最初的特征空间可以被映射更高维度的特征空间,样例是可被分离的
13.分类系统和聚类系统比较
分类系统 |
聚类系统 |
|
|
聚类的思想:将相同的源分组在一起 |
14.【考点/简答题/综合题】K-Means(一种迭代的聚类算法)相关内容
- 概念:一种算法去进行分类或者将物体根据属性或特征将其分成K组。K是一个positive整数,分组的根据在于最小化数据到聚类质心之间的和。
- 目的:对数据进行分类
- 算法思想:随机选取K个点作为聚类的中心,分配数据给最近的中心,当每一个分配点都不再变化时停止
- 性质:不确定的/最佳的
- 阻止不确定性的方法:
- variance-based split / merge【基于方差的拆分/合并】
- initialization heuristics【初始化启发式】
- 算法思想:
- 首先应明确输入的是K以及大小n,输出是最小值E
- 为每一个聚类选择一个节点作为最初的中心
- 更具距离分配节点匹配聚类
- 选择每一个聚类的样本均值作为心的中心
- 重复前两个步骤直到样本均值在每一个聚类中不再改变
- 获得最终的K聚类
综合题目中进行K-mean的方法 |
|
15.【考点/简答题/综合题】Agglomerative Clustering【层次/合并聚类】
- 思想:首先合并相同实例,递增的建造出更大的聚类
- 算法:
- 保持一系列聚类
- 每个实例在它自己最初的聚类
- 重复捡起最近的两个进行聚类,将它们合并为一个心得聚类,当只剩下一个聚类时停止
- 注意:不同得想法会产生不同的聚类行为
综合题目中进行合并聚类的方法 |
|