聚类模型——k-means

   日期:2024-12-27    作者:mixiangcun 移动:http://oml01z.riyuangf.com/mobile/quote/69591.html
“物以类聚,人以群分”,所谓的聚类,就是将样本划分为由类似的对象组成的多个类的过程。聚类后,我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测
也可以探究不同类之间的相关性和主要差异。
聚类和分类的区别:分类是已知类别的,聚类未知类别

目录

一、K-means

1,算法流程

K-means聚类的算法流程

图解过一遍

2,WCSS(Within-Cluster Sum of Squares)  簇内平方和评估

 3,题目复习

1,EG1

2,EG2

3,EG3

 4,EG4

 5,EG5​

二、K-means使用

1.sklearn库对鸢尾花(iris)数据集的聚类

2.手肘法ELBOW

3,应用——图像压缩 

图解过一遍

1)计算各点与各重心间的距离

2)将最近的重心所在簇作为该点所属的簇

 (3) 计算每个簇的平均值,作为其重心

 

WCSS 随着簇的增加而变小,所以可以用于相同数量的簇的情况下的比较。WCSS 指的是对所有簇计算其所属的数据点与簇的重心之间距离的平方和,并将它们相加得到的值。这个值越小,说明聚类效果越好。

随着簇的增加,WCSS 会变小,但有时 WCSS 的变小幅度会从簇的数量为某个值时开始放缓。通过使用 Elbow 方法,可以确定合理的簇的数量。
                        ​​​​​​​        

 

1,EG1

 B注意是负的WCSS

2,EG2

 有n条数据,代表要计算n条数据,n条数据的k个特征与m重心间的距离

选D

3,EG3

 这要通过每个数据到每个中心的距离进行比较,距离小的归属哪个中心,这样就有n个点距离和m个中心进行比较,需要进行n*m次

 4,EG4

 这题就没必要初始化中心点去搞了,画个图很直观看得出两个类的中心点(4,5)和(3,1)吧

 

 

        手肘法的核心思想是随着聚类数k的增大样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。

        并且,当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。当然,这也是该方法被称为手肘法的原因。

 
 
 
 

 

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号