层次聚类读书笔记_层次聚类举例

其他范文 时间:2020-02-28 07:16:11 收藏本文下载本文
【www.daodoc.com - 其他范文】

层次聚类读书笔记由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“层次聚类举例”。

层次聚类读书笔记

值得注意的是,层次聚类方法是不可逆的,也就是说,当通过凝聚式的方法将两组合并后,无法通过分裂式的办法再将其分离到之前的状态,反之亦然。另外,层次聚类过程中调查者必须决定聚类在什么时候停止,以得到某个数量的分类。最后,必须记住,在不必要的情况下应该小心使用层次聚类方法。最好用于有潜在层次结构的数据上。

凝聚式方法是层次聚类中被广泛使用的方法。过程中,会产生一系列的分划:最初的是n个单成员的类,最后的划分是一个包含全部个体的单个类。凝聚式聚类有很多方法,但基本的操作是相似的,在每一步中,将距离最近的类或者个体融合成一个类。方法之间的差异只是由不同的个体和组之间,或组与组之间的距离的计算方法而带来的。下面介绍一些常用的方法。

单连锁(single linkage),又称最近邻(nearest neighbour)方法。这个方法使用数据的相似度矩阵或距离矩阵,定义类间距离为两类之间数据的最小距离。这个方法不考虑类结构。可能产生散乱的分类,特别是在大数据集的情况下。因为它可以产生chaining现象,当两类之间出现中间点的时候,这两类很有可能会被这个方法合成一类。单连锁也可以用于分裂式聚类,用来分开最近邻距离最远的两组。

全连锁(complete linkage),又称最远邻(furthest neightbour)方法。同样从相似度矩阵或距离矩阵出发,但定义距离为两类之间数据的最大距离。同样不考虑到类的结构。倾向于找到一些紧凑的分类。

(组)平均连锁(group average linkage),又称为 UPGMA(Unweighted Pair-Group Methodusing the Average approach)。跟前两个方法一样,从相似度矩阵或距离矩阵出发,但定义距离为类间数据两两距离的平均值。这个方法倾向于合并差异小的两个类。(距离)介于单连锁和全连锁之间。它考虑到了类的结构,产生的分类具有相对的鲁棒性。

质心连锁(centroid linkage),又称为UPGMC(Unweighted Paire-Group Method using Centroid approach)。不同于前面的方法,它从距离矩阵和原始数据出发,一般定义距离为平方欧几里得距离(可以使用其他距离测度方法,但是可能会对缺少原始数据的阐释,比如“质心”的概念),此距离为个体与组的质心(所有成员的原始数据均值),或组与组的质心距离。(待补充)

中值连锁(median linkage),又称为WPGMC(Weighted Pair-Group Method using Centroid approach。跟前面的UPGMC不同的是,在计算组的质心时,将合成该组的两部分(组组,个体和组?)按照相同的权重计算,也就是说算出的质心实际上是组成该组的两部分的质心的均值。(待补充)

Ward′s method,又称离差平方和法(error sum of squares criterion)。这个方法倾向于在每一步使组内的离差平方和的增量最小。所谓的 离差平方和定义为

E=sum_{m=1}^{g} E_{m}

Where

E_{m}=sum_{l=1}^{n_{m}}sum_{k=1}^{p}(x_{ml,k}-

下载层次聚类读书笔记word格式文档
下载层次聚类读书笔记.doc
将本文档下载到自己电脑,方便修改和收藏。
点此处下载文档

文档为doc格式

    热门文章
      整站推荐
        点击下载本文