应用聚类算法比选择最佳算法容易得多。每种类型都有其优点和缺点。如果你想要一个整洁的集群结构,你必须认真考虑它。
数据聚类是排列正确的整个数据模型的重要一步。为了进行分析,应该根据共同点对信息进行分类。主要问题是什么公共参数能提供最好的结果,什么是“最好”的意思。
本文介绍了最广泛的聚类算法及其深入阐述。根据每种方法的特殊性,提出了应用建议。
四种基本算法以及如何选择
根据聚类模型,可以区分四种常见的算法类别。一般来说,有不少于100种算法,但它们的普及和应用领域并不广泛。
基于整个数据集对象之间距离的计算称为连接或分层。根据算法的“方向”,它可以联合或反向划分信息数组——。聚合和拆分的名称来自这个精确的变化。最流行或最合理的类型是聚合类型。首先输入数据点的数量,然后将这些数据点合并成越来越大的簇,直到达到极限。
基于连接的聚类最突出的例子是植物分类。数据集的“树”以特定物种开始,以一些植物“王国”结束。每个“王国”由更小的集群(门、类、命令等)组成。)。
在应用了一个基于连接的算法后,您将会收到一个数据树,它将显示信息的结构,而不是它在集群上的明显分离。这一特点有优点也有缺点。算法的复杂性可能变得过于复杂,或者不适用于层次结构很少或没有层次结构的数据集。由于大量重复,的性能也会很差,完成处理将需要很多时间。最重要的是,使用分层算法无法获得精确的结构。
同时,需要从计数器输入的数据归结为对最终结果没有实质性影响的数据点数,或者是一个预设的距离测量,这是一个粗略的测量。
根据我的经验,基于中心体的集群是最常见的模型,因为它相对单。该模型旨在将数据集的每个对象分类到特定的聚类中。簇的数量(k)是随机选择的,这可能是该方法的最大“弱点”。由于该算法与最近邻(KNN)方法相似,因此在机器学习中特别受欢迎。
计算过程包括几个步骤。首先,选择输入数据,并将数据集分成近似的簇。聚类中心应尽可能远离,这将提高结果的准确性。
其次,该算法找到每个对象和数据集的每个聚类之间的距离。最小坐标决定了将对象移动到哪个簇。
之后,将根据所有对象坐标的平均值重新计算聚类中心。重复算法的第一步,但重新计算聚类的新中心。除非满足某些条件,否则这种迭代将继续。例如,当聚类的中心没有移动或者从上次迭代开始移动不明显时,算法可能结束。
虽然数学和编码很简单,但是K-means仍然有一些缺点,所以我不能在所有可能的地方使用它。这包括:
同时,期望最大化算法可以避免这些复杂的情况,同时提供更高的精度。简而言之,它计算每个数据集点和我们指定的所有聚类之间的关联概率。用于该聚类模型的主要“工具”是高斯混合模型(GMM),假设数据集的点通常遵循高斯分布。
k-means算法基本上是电磁原理的简化版本。它们都需要手动输入集群的数量,这是该方法面临的主要问题。此外,计算原理(对于GMM或K均值)很简单:在每次新的迭代中逐渐指定聚类的近似范围。
与基于质心的模型不同,电磁算法允许对两个或多个聚类点进行分类——它只向您显示每个事件的可能性,您可以将其用于进一步的分析。更重要的是,每个聚类的边界形成具有不同度量的椭圆体,这不同于K-means,在K-means中,聚类在视觉上表示为圆。然而,对于对象不遵循高斯分布的数据集,该算法根本不起作用。这是这种方法的主要缺点:它比实际测量或观察更适合于理论问题。
最后,基于数据密度的聚类已经成为数据科学家中最流行的非官方方法,包括模型的关键点。数据集被分成簇,计数器将输入ε参数,即“邻居”距离。因此,如果对象位于半径为ε的圆(球)内,则它与聚类有关。
DBSCAN(基于密度的应用噪声空间聚类)算法逐步检查每个对象,将其状态更改为“已查看”,将其分类为聚类或噪声,最后处理整个数据集。DBSCAN确定的聚类可以是任何形状,因此非常精确。此外,该算法不允许您计算集群的数量,它是自动确定的。
然而,即使像DBSCAN这样的杰作也有缺点。如果数据集由可变密度数据集组成,这种方法的结果很差。如果物体位置太近,ε参数不容易估计,那么这不是你的选择。
总而言之,没有错误的选择算法——。其中一些只更适合特定的数据集结构。为了选择最好和更合适的算法,你需要充分了解它们的优缺点和特点。
有些算法可能会在开始时被排除,例如,它们不符合数据集规范。为了避免重复工作,你可以花一些时间整理和记忆信息,而不是选择错误的路径。
极牛网精选文章《如何为数据集选择正确的聚类算法》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/3713.html