Python实现K-means 聚类
K-means实验原理
k-means算法是基于原型的聚类算法。给定聚类簇数k后,k-means算法把数据样本划分到k个簇中,使得组内平方和(within-cluster sum of squares)最小。直观来看,该式衡量了簇内样本围绕簇均值向量的紧密程度,越小则簇内样本相似程度越高。
要找到最小的簇划分需要考察所有可能的簇划分,这是一个NP难问题。k-means算法采取了贪心策略,通过迭代优化来近似求解。K-means算法首先选择k个样本作为初始均值向量,每次迭代都根据样本到均值向量的距离更新簇划分,再用新的簇划分更新均值向量,直到均值向量不再改变。
k-means算法需要手动选择一个超参数k,选取不同的初始均值向量也可能会得到不同的聚类结果。
实验内容
编写k-means代码,使用iris(鸢尾花)数据集的最后两维特征(iris_2features.txt)进行聚类实验。
尝试使用不同的聚类簇数(k=1, 2, 3, 4, 5),随机选择多组初始均值向量进行实验。计算聚类簇数k=3时的Rand指数,计算k=1, 2, 3, 4, 5时的DB指数,并可视化展示聚类结果。
代码如下
#导入相关库
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np
import csv
#读取数据集
target2num = {'Iris-setosa':0,
'Iris-versicolor':1,
'Iris-virginica':2}
with open('iris_2features.txt') as csvfile:
lines = csv.reader(csvfile)
dataset = list(lines)
x = np.array([sample[0:2] for sample in dataset], dtype=np.float)
y = np.array([target2num[sample[2]] for sample in dataset])
#Rand指数
def rand(y1, y2):
m = y1.shape[0]
a, d = 0, 0
for i in range(m):
for j in range(i+1, m):
if y1[i] == y1[j] and y2[i] == y2[j]:
a += 1
elif y1[i] != y1[j] and y2[i] != y2[j]:
d += 1
return 2*(a+d)/(m*(m-1))
#K-means聚类
print('真实情况')
plt.scatter(x[:, 0], x[:, 1], c=y)
plt.show()
ks = [2, 3, 4, 5]
for k in ks:
print('k = {}'.format(k))
y_pred = KMeans(n_clusters=k).fit_predict(x)
ri = rand(y, y_pred)
print('Rand指数 = {}'.format(ri))
db = metrics.davies_bouldin_score(x, y_pred)
print('DB指数 = {}'.format(db))
plt.scatter(x[:, 0], x[:, 1], c=y_pred)
plt.show()
实验结果
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
二维码