聚类模型——k-means

日期：2024-12-27 作者：mixiangcun 移动：http://oml01z.riyuangf.com/mobile/quote/69591.html

“物以类聚，人以群分”，所谓的聚类，就是将样本划分为由类似的对象组成的多个类的过程。聚类后，我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测；

也可以探究不同类之间的相关性和主要差异。

聚类和分类的区别：分类是已知类别的，聚类未知类别

一、K-means

1，算法流程

K-means聚类的算法流程：

图解过一遍：

2，WCSS(Within-Cluster Sum of Squares) 簇内平方和评估

3，题目复习

1，EG1

2，EG2

3，EG3

4，EG4

5，EG5

二、K-means使用

1.sklearn库对鸢尾花(iris)数据集的聚类

2.手肘法ELBOW

3，应用——图像压缩

图解过一遍：

1）计算各点与各重心间的距离

2）将最近的重心所在簇作为该点所属的簇

(3) 计算每个簇的平均值，作为其重心

WCSS 随着簇的增加而变小，所以可以用于相同数量的簇的情况下的比较。WCSS 指的是对所有簇计算其所属的数据点与簇的重心之间距离的平方和，并将它们相加得到的值。这个值越小，说明聚类效果越好。

随着簇的增加，WCSS 会变小，但有时 WCSS 的变小幅度会从簇的数量为某个值时开始放缓。通过使用 Elbow 方法，可以确定合理的簇的数量。

1，EG1

B注意是负的WCSS

2，EG2

有n条数据，代表要计算n条数据，n条数据的k个特征与m重心间的距离

选D

3，EG3

这要通过每个数据到每个中心的距离进行比较，距离小的归属哪个中心，这样就有n个点距离和m个中心进行比较，需要进行n*m次

4，EG4

这题就没必要初始化中心点去搞了，画个图很直观看得出两个类的中心点（4，5）和（3，1）吧

手肘法的核心思想是：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。

并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。当然，这也是该方法被称为手肘法的原因。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行