简述K-means算法的基本过程及其不足.《数据挖掘》作业题追分100

1个回答

  • 1、 从 n个数据对象任意选择 k 个对象作为初始聚类中心;

    2、 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

    3、 重新计算每个(有变化)聚类的均值(中心对象)

    4、循环步骤2和3,直到每个聚类不再发生变化为止

    缺点:

    1、聚类个数K需要自己决定,因此在不知道具体有多少类时需要从2开始多次尝试,选择最好的

    2、当k确定时,聚类效果和初始中心选择有关,所以算法很不稳定

    3、算法在维数较多时,由于需要多次迭代,花费时间较长