r语言中DBSCAN算法的实现是怎样的,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
DBSCAN(Density-BasedSpatial Clustering of Applications with Noise),一种基于密度的聚类方法,即找到被低密度区域分离的稠密区域,要求聚类空间中的一定区域内所包含对象(点或其他空间对象)的数目不小于某一给定阈值。
一、两个参数。
1,距离参数(Eps)
2,邻域内点最少个数(MinPts)
二、根据基于中心的密度进行点分类。
密度的基于中心的方法使得点分为三类:
1, 核心点。稠密区域内部的点。该点以Eps为半径的区域内点的个数不少于MinPts(包括自身)。
2, 边界点。稠密区边缘上的点,不是核心点,但在某个或多个核心点邻域内。
3, 噪声点。稀疏区域中的点,既非核心点也非边界点。
4, 密度可达。如果点p在核心点q的Eps邻域内,则称p是从q出发可以直接密度可达。如果存在点链p1,p2, …, pn,p1=q,pn=p,pi+1是从pi直接密度可达,则称点p是从q关于r和M密度可达的,密度可达是单向的。
-
算法流程
从某点出发,将密度可达的点聚为一类,不断进行区域扩张,直至所有点都被访问。
-
R语言实现
在R中实现DBSCAN聚类,可以使用fpc包中的dbscan()函数。在下面的例子中,我们使用factoextra包中的数据集multishapes进行演示。
如下可查看聚类后的结果:
具体每个样本点的分类结果,可用db$cluster查看,其中0表示噪声点,如下随机显示50个点的分类结果:
-
选择最优的Eps值
方法为计算每个点到其最近邻的k个点的平均距离。k的取值根据MinPts由用户指定。R语言中,使用dbscan包中的kNNdistplot()函数进行计算。
由图可知,拐点处基本在0.15左右,因此可以认为最优Eps值在0.15左右。
-
自定义距离公式
dbscan()函数中计算距离公式为欧式距离,在一些特定的场合无法使用,比如要计算地图上两点的距离,就要应用特定的计算地图上两点的距离公式。
R里面的很多函数都是开源的,因此,直接运行fpc::dbscan可以看到此函数的原程序。我们用geosphere包中的distm()函数对原程序中的距离计算公式进行修改,实现地图上两点距离的计算。
将原程序中的distcomb函数改为如下形式:
将修改过的dbscan函数重新命名为disdbscan,重新将数据进行聚类:
-
DBSCAN优缺点
优点:
(1)聚类速度快,且能够有效处理噪声点。
(2)能发现任意形状的空间聚类。
(3)聚类结果几乎不依赖于点遍历顺序。
(4)不需要输入要划分的聚类个数。
缺点:
(1)当数据量增大时,要求较大的内存支持I/O消耗也很大;
(2)当空间聚类的密度不均匀、聚类间距差相差很大时,聚类质量较差。
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/tech/opensource/208360.html