聚类：聚类的介绍及k-means算法

admin • 2024-01-02 21:31 • 研发管理

聚类就是在输入为多个数据时，将“相似”的数据分为一组的操作。1 个组就叫作 1 个 “簇”。下面的示例中每个点都代表1 个数据，在平面上位置较为相近、被圈起来的点就代表一类相似的数据。也就是说，这些数据被分为了 3 个簇。

假设某所高中的某个年级中共有 400 名学生，现在我们想要将这些学生在考试中取得的语文、数学、英语成绩数据化，并将他们按照“擅长或不擅长的科目相似”进行聚类。

把每个学生都转换成“（语文成绩 , 数学成绩 , 英语成绩）”形式的数据后，就可以将两个数据（c1, m1, e1）和（c2, m2, e2）之间的差距定义为 (c1-c2)² + (m1-m2)² + (e1-e2)² ，其中差距小的数据就互为“相似的数据”。

即使定义好了数据间的差距，聚类的方法也会有很多种。我们可以设定各种各样的条件，比如想把数据分为 10 个簇，或者想把 1 个簇内的数据定在 30~50 人之间，再或者想把簇内数据间的最大距离设为 10，等等。而设定什么样的条件取决于进行聚类的目的。

假如是为了开办暑期补习班而对学生进行分班，那么就要根据老师和教室的数量来确定 “簇的数量”，并根据教室的面积确定“每个簇内的数据量”。现在有很多种可以满足各类条件的聚类算法供我们选择。“k-means 算法”就是其中一种。

k-means 算法是聚类算法中的一种，它可以根据事先给定的簇的数量进行聚类。

首先准备好需要聚类的数据，然后决定簇的数量。本例中我们将簇的数量定为 3。此处用点表示数据，用两点间的直线距离表示数据间的差距。并且随机选择 3 个点作为簇的中心点。

计算各个数据分别和 3 个中心点中的哪一个点距离最近。

将数据分到相应的簇中。这样，3 个簇的聚类就完成了。

计算各个簇中数据的重心，然后将簇的中心点移动到这个位置。而随着中心点的移动，部分数据的“距离自己最近的中心点”也会改变。然后，重新计算距离最近的簇的中心点，并将数据分到相应的簇中。

重复执行“将数据分到相应的簇中”和“将中心点移到重心的位置”这两个操作，直到中心点不再发生变化为止。

4 轮操作结束后，结果如上图所示。即使继续重复操作，中心点也不会再发生变化，操作到此结束，聚类也就完成了。此时我们可以确定，相似的数据已经被恰当地分为一组了。

k-means 算法中，随着操作的不断重复，中心点的位置必定会在某处收敛，这一点已经在数学层面上得到证明。

算法中，随着操作的不断重复，中心点的位置必定会在某处收敛，这一点已经在数学层面上得到证明。

除了 k-means 算法以外，聚类算法还有很多，其中“层次聚类算法”较为有名。与 k-means 算法不同，层次聚类算法不需要事先设定簇的数量。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

kmeans 学习算法聚类

二维码

三菱MR-JE伺服脉冲轴应用参数设置

听GPT 讲Rust源代码–src/tools(29)

下一篇>>

搜索内容