Page 30 - 《中国药房》2020年第24期
P. 30
本课题组根据策略模式思想,研发了 TCMDP 这一 算法优选出最佳的密度半径,进而消除截断距离对
软件,其中封装了频次统计、关联、聚类、分类等多个方 DPCA算法局部密度的影响。
法,在每个不同的方法里面又有多个不同的算法(如图3 为 使 DBSCAN 算 法 优 选 出 最 佳 的 密 度 半 径 ,
所示)。以聚类挖掘为例,其功能操作界面如图4所示。 CMC-DD 算法首先根据文献算法 优选出最佳密度参
[10]
数(ε r )来计算每个数据对象的局部密度(ρ),再计算出每
统计挖掘 频次统计
个数据对象的聚类中心距离(δ),计算出ρ·δ的标准差
关联挖掘 Apriori算法、WD-Get rules等
(STD),选出满足条件 STD 值最大的 k(簇类数)个点作
为聚类中心,最后把剩余的点划分到相邻最近的类中。
数据挖掘方法 聚类挖掘 K-means算法、CMC-DD算法等
①CMC-DD 算法基本概念如下:以ρ表示数据对象
分类挖掘 决策树算法、贝叶斯算法等
的局部密度,δ表示数据对象的聚类中心距离,设样本数
据集合:G={x1,x2,……,xn}。
…… ……
定义 1(欧氏距离)——属于常见距离度量中的一
图3 TCMDP的数据挖掘方法示意图
种,衡量的是空间中两点x和y间的直线距离,其计算公
Fig 3 Schematic diagram of data mining method of
TCMDP 式如下:
√ n n 2
d(x,y)= ∑ ∑ (xi-yj ) … … … … … … … … … (1)
i=1 j=1
定义 2(局部密度)——数据对象 xi的局部密度ρ i的
计算公式如下:
-d(xi,xj )
ρi=∑xj∈Ωe |Ω| … … … … … … … … … … … … … … (2)
式(1)(2)中Ω为ε r的邻域,|Ω|为Ω内数据点数目,
d(xi,xj )为数据点xi与xj间的欧氏距离。
定义3(聚类中心距离)——聚类中心距离δ i的计算
图4 TCMDP中聚类挖掘功能界面图
公式如下:
Fig 4 Clustering mining function interface diagram min
of TCMDP j ρi<ρj[d(xi,xj )] i≥1
δi= { … … … … … … (3)
1.2 数据挖掘方法示例 max ρid(xi,xj )ρi=max
在本研究中,以治疗 PHC 的中药处方为例,采用 j
定义4(聚类中心选择的约束条件)——聚类中心选
TCMDP 软 件 中 最 常 用 的 CMC-DD 算 法 [Clustering
择的约束条件的计算公式如下:
method combining DBSCAN and DPCA,即融合了基于
Φ=ρiδi … … … … … … … … … … … … … … … … (4)
密度噪声应用的空间聚类算法(Density based spatial
式(3)(4)中,ρ i δi为每个数据点的局部密度ρ i与聚类
clustering of applications with noise,DBSCAN)和密度峰
值聚类算法(Density peaks clustering algorithm,DPCA) 中心距离δi的乘积形成的列表数据。
的 改 进 聚 类 算 法]、WD-Get Rules 算 法(Width and ②CMC-DD具体算法流程:CMC-DD聚类算法能够
depth-get rules,即融合了深度和宽度搜索的改进关联规 很好地解决截断距离参数的影响,且无需人为干扰算法
则算法)和频次统计方法,对此类处方的配伍规律进行 聚类中心的选择,其具体算法流程见图5。
分析。 1.2.2 WD-Get Rules算法
1.2.1 CMC-DD算法 WD-Get Rules 算法为本课题组设计的改进关联规
CMC-DD 算法是融合了 DBSCAN 算法和 DPCA 算 则算法,可以更加有效地挖掘出隐藏在数据集中有意义
法的改进聚类算法。DPCA算法可以快速地发现数据集 的关系。该算法首先采用宽度优先的策略,找出能作为
的密度峰值点,并能高效地分配样本点和剔除离群点, 强关联规则的后件集H,该集合中每个后件为1项集,以
在社区发现、图像处理、计算机视觉和文本处理等领域 H 为基准,采用集合枚举树的关联规则进行深度搜
[11]
得到广泛应用,但是截断距离会对其聚类结果产生影 索 。不同于集合枚举树的关联规则,WD-Get Rules算
[8]
响 ;DBSCAN算法是基于密度的聚类算法,它不需要预 法在进行深度搜索时,规则后件仅源自于H中所含有的
先指定聚类的簇数,能够在含有噪声的数据集中发现任 元素,这样可避免不能作为规则后件的元素;且若项集
意数量和形状的簇,所以在聚类分析中有着广泛的应 是频繁 k(k>2)项集,H 中的元素个数大于 1,才进行深
用 [9-10] 。为了消除截断距离对 DPCA 算法聚类结果的影 度搜索,否则对下一个频繁项集进行操作,其具体算法
响,本研究提出了CMC-DD算法,即主要利用DBSCAN 流程详见文献[12]。
·2968 · China Pharmacy 2020 Vol. 31 No. 24 中国药房 2020年第31卷第24期