机器学习之入门但门被焊死分类KNN算法实现

admin • 2022-06-01 12:22 • 人工智能

机器学习之入门但门被焊死分类KNN算法实现

前言
算法简介
代码实现
总结

前言

对于一个马上要毕业的大四学生来说，突然由后端转学机器学习，学起来好难，尤其是回归那里，数学好难！！！！！！！！

因为回归的公式太难搞了，这里先整理一手分类的入门算法，KNN。

算法简介

KNN是啥?
官方的话咱就不整了，通俗来说就是找出距离某个点最近的k个点（这k个点已经分好类了），找出k个点中出现次数最多的分类，就是我们预测的分类。

从上面的描述可以直到，算法总共有这几个步骤

计算出目标点到其他点的距离
将所有的距离值正序排序
在排序结果中找出前k个值，并找出出现次数最多的分类

感觉还是蛮简单的，接下来来写代码吧。

代码实现

计算距离

两个计算距离的方法，分别是曼哈顿公式，欧拉公式

这里介绍一下几个函数
np.sum
求和函数，相比其他的求和公式，这个求和公式支持向量和向量的加法，也支持矩阵和向量的加法（前提是矩阵的列数应该等于向量的维数）。

axis=1表示最终的矩阵应该是一列的，即在进行向量加法之后的结果为[1,2,4]时，设置了axis之后结果就是[7].

np.abs
求绝对值

# 距离函数的定义 曼哈顿公式
def distance1(a, b):
    # 当a是矩阵时，b是向量，即a的每一行都与b乡间，然后再合成一列
    sum = np.sum(np.abs(a - b), axis=1)  # 因为ab是向量，所以a-b之后还是向量，axis是保存一列，即在运算结束之后再将所有列的数据加和
    return sum;


# 欧拉公式
def distance2(a, b):
    sum = np.sqrt(np.sum(np.abs(a - b) ** 2, axis=1))
    return sum;

引入和切分数据集

用惯了java之后，再用python，就会觉得，python，你是我的神！
切分数据集不需要自己写代码，引入一个库就完事了

from sklearn.model_selection import train_test_split  # 切分训练集和测试集
from sklearn.datasets import load_iris    #引入一个分类的数据集
# 数据加载和预处理
iris = load_iris()

df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
df['target'] = df['target'].map({0: iris.target_names[0], 1: iris.target_names[1], 2: iris.target_names[2]})

x = iris.data
y = iris.target
y = y.reshape(-1, 1)
# testsize 测试集大小             randomstate 是否随机切分             stratify 按照等比例分层  就是y的比例是多少，分出的测试集中的比例也是多少
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1, stratify=y)

分类器（预测目标点属于哪个分类）

# 分类器
class KNN(object):
    # 定义初始化方法 self指类的示例
    def __init__(self, k_neighbors=1, disufunc=distance1):
        self.k_neighbors = k_neighbors
        self.disufunc = disufunc

    # 训练模型      这里可以直接在构造函数一起设置了，看大家想怎么搞了
    def fit(self, x, y):
        self.x_train = x
        self.y_train = y

    # 模型预测
    def predict(self, x):
        y_pred = np.zeros((x.shape[0], 1), dtype=self.y_train.dtype)  # 初始化数组   (x.shape[0], 1)是设置数组的行数和列数   dtype设置数组中元素的类型
        for index,x_val in enumerate(x):    #enumerate函数将数组中的对象包装为索引，值的形式
            distance=self.disufunc(self.x_train,x_val)   #直接调用前面的距离函数
            #排序   取出索引值
            nn_index=np.argsort(distance)     # argsort就是将数组内的数据排序，将原来的索引值作为数组返回
            #统计频率
            nn_y=self.y_train[nn_index[:self.k_neighbors]].ravel()   #取出前k个索引所对应的类别
            y_pred[index]=np.argmax(np.bincount(nn_y))      #bincount 统计每个值出现的次数 即内容为a[3]=4 3 为值 4 为出现的次数    argmax次数最大值的索引值
        return y_pred

测试

        knn=KNN(k_neighbors=5)
        knn.fit(x_train,y_train)
        y_pred=knn.predict(x_test)
        #预测准确率
        accuracy=accuracy_score(y_test,y_pred)
        print(accuracy)

这样所有的代码就实现了，还是蛮简单的

总结

学到了很多numpy的函数的用法，确实觉得python真好用，全给写好了。

很多东西还需要在复习，写个博客总结下。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

分类机器学习算法

二维码

一文细数100+个数据分析指标

< <上一篇

web前端发展历程

下一篇>>

搜索内容

机器学习之入门但门被焊死分类KNN算法实现

机器学习之入门但门被焊死分类KNN算法实现

前言

算法简介

代码实现

计算距离

引入和切分数据集

分类器（预测目标点属于哪个分类）

测试

总结

最新文章

分类

标签云

机器学习之入门但门被焊死 分类KNN算法实现

机器学习之入门但门被焊死 分类KNN算法实现

前言

算法简介

代码实现

计算距离

引入和切分数据集

分类器（预测目标点属于哪个分类）

测试

总结

最新文章

分类

标签云

机器学习之入门但门被焊死分类KNN算法实现

机器学习之入门但门被焊死分类KNN算法实现