聚类是用于统计数据分析的主要技术之一。

如该术语所暗示,”聚类”定义为将相似对象聚集到不同的组或将数据集分布到具有定义距离度量的子集的过程。

K-means 聚类被吹捧为每个数据 科学家在他们的工具 箱中都应该有的基础算法。该算法在数据科学行业的普及是由于其非凡的特性:

  • 简单
  • 速度
  • 效率

它是如何工作的?

K-means 和 k-medoid是分区聚类算法中使用的方法,其功能基于指定组的初始数量或更确切地说,通过在组之间重新分配对象来迭代。

该算法的工作原理是首先将所有点隔离到已选定的群集数中。该过程通过测量每个聚类的点和中心之间的距离来执行。由于 k-means 只能在欧几里德空间中工作,因此算法的功能有限。尽管算法存在缺陷或缺点,但 k-means 仍然是聚类中使用的最强大工具之一。这些应用可广泛应用于多个领域 – 物理科学、自然语言处理 (NLP) 和医疗保健。

k-means 算法的扩展涉及其 k 中心更智能的起始位置,这进一步允许更多可变群集大小。发生这种情况时,创建的距离将大于欧几里德距离。

此外,我们将讨论不同的其他方法,如 CLARANS、CLARA 和 PAM,它们有助于整合欧几里德距离以外的测量距离。

但是,在讨论其他方法之前,让我们先解决 k-means 聚类的缺点。

通常,异常值是由于欺诈行为、人为错误和机械故障造成的。也可以在 k – means 聚类中看到。首先,k-means 聚类算法需要在数据集中应用,然后您可以开始 识别每个群集中的 异常值。基于距离的方法和基于群集的方法,用于识别或检测数据集中的异常值和异常。

主要目标是首先检测异常值,然后将其删除,使聚类更加可靠。

以下是预测 k-means 聚类失败的点:

  • 当群集的大小和密度不同时,无法正常工作。
  • 预测准确的质心数量来划分数据是很困难的。
  • k-质心的初始放置往往会影响结果
  • 对维度比例敏感,因此重新缩放数据可能会变得困难。
  • 利用欧几里德距离,同时划分点。但是,在高维设置中,它可能会变得无效,因为所有点彼此距离都同样远。
  • 即使分区没有意义,该算法也可划分空间。
  • 围绕 Medoid (PAM) 算法进行分区

    除了群集的均值之外,您还可以使用 medoid 进行分区,或者可能使用位于群集中中心点的数据点。据说,medoid 与群集中的所有点具有最少的不同点。Medoid 对数据集中的异常值不太敏感。

    聚类算法在机器学习 (ML) 中演示了无监督学习。k-means 背后的一个主要思想是,我们希望在已有的数据中添加新点 (k) – 每个点都称为质心。k-means算法是每个数据科学家必须在他们的工具箱中最简单的数据科学算法之一。

    现在,这些分区可以使用任意距离,而并不总是依赖于欧几里德距离。这是 PAM、CLARA 和 CLARANS 中最关键的点之一。

    以下是 PAM 中涉及的步骤:

    • 给定 k
    • 现在选择随机 k 作为初始药物
    • 每个实例都需要分配给最近的 medoid (x)
    • 然后计算目标函数,即每个实例与最近 medoid 的和总和 pf 不同
    • 选择任何随机实例 (y)
    • 将 x 替换为 y,当发生这种情况时,交换或替换会降低功能
    • 然后重复 (3-6),直到没有进一步的变化

    CLARA(大型应用程序的群集)是 PAM 的一个更快版本,可帮助启用算法中的循环嵌套顺序。我们需要一个更快的PAM版本,以防PAM算法的时间复杂性比k-means算法慢下来。

    尽管 k-means 聚类算法存在多种缺点,例如易受异常值影响、依赖于欧几里德距离以及收集不代表真实数据点的质心 – PAM、CLARA 和 CLARANS 在解决问题方面发挥了重要作用。

    Comments are closed.