频道栏目
首页 > 资讯 > 云计算 > 正文

数据挖掘算法聚类方法之K-均值聚类算法讲解

17-12-09        来源:[db:作者]  
收藏   我要投稿

数据挖掘算法聚类方法之K-均值聚类算法讲解

1.分类和聚类是两个容易混淆的概念,事实上它们具有显著区别。

在分类中,为了建立分类模型而分析的数据对象的类别是已知的,然而,在聚类时处理的所有数据对象的类别都是未知的。

因此,分类是有指导的,是通过例子(训练样本集)学习的过程,而聚类是无指导的,是通过观察学习的过程 。

2. 聚类

聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇(或类)中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性。

3. 聚类过程

4. 聚类方法的分类

按照聚类的尺度,聚类方法可被分为以下三种:

(1)基于距离的聚类算法:用各式各样的距离来衡量数据对象之间的相似度。

(2)基于密度的聚类算法:相对于基于距离的聚类算法,基于密度的聚类方法主要是依据合适的密度函数等。

(3)基于互连性的聚类算法:通常基于图或超图模型。高度连通的对象聚为一类。

按照聚类分析方法的主要思路,可以被归纳为如下几种

划分法:基于一定标准构建数据的划分。

层次法:对给定数据对象集合进行层次的分解。

密度法:基于数据对象的相连密度评价。

网格法:将数据空间划分成为有限个单元的网格结构,基于网格结构进行聚类。

模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。

5. 聚类分析在数据挖掘中的应用

① 聚类分析可以用于数据预处理。利用聚类分析进行数据划分,进行特征抽取或分类就可以提高精确度和挖掘效率。

② 可以作为一个独立的工具来获得数据的分布情况。可获得数据分布情况,集中对特定的某些簇进行分析。比如市场细分、目标顾客定位、业绩评估和生物种群划分。

③ 聚类分析可以完成孤立点挖掘。有些孤立点有用,比如欺诈探测中,孤立点可能预示欺诈行为的存在。

6. 基于划分的聚类算法

划分聚类算法预先指定聚类数目或聚类中心,通过反复迭代运算,逐步优化目标函数的值,当目标函数收敛时,得到最终聚类结果。

相关TAG标签
上一篇:MySQL表级锁的锁模式、并发插入讲解
下一篇:oracle数据库sql语句之创建和使用包的讲解
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站