Page 30 - 《中国药房》2020年第24期

P. 30

本课题组根据策略模式思想，研发了 TCMDP 这一算法优选出最佳的密度半径，进而消除截断距离对
软件，其中封装了频次统计、关联、聚类、分类等多个方 DPCA算法局部密度的影响。
法，在每个不同的方法里面又有多个不同的算法（如图3 为使 DBSCAN 算法优选出最佳的密度半径，
所示）。以聚类挖掘为例，其功能操作界面如图4所示。 CMC-DD 算法首先根据文献算法优选出最佳密度参
[10]
数（ε r ）来计算每个数据对象的局部密度（ρ），再计算出每
统计挖掘频次统计
个数据对象的聚类中心距离（δ），计算出ρ·δ的标准差
关联挖掘 Apriori算法、WD-Get rules等
（STD），选出满足条件 STD 值最大的 k（簇类数）个点作
为聚类中心，最后把剩余的点划分到相邻最近的类中。
数据挖掘方法聚类挖掘 K-means算法、CMC-DD算法等
①CMC-DD 算法基本概念如下：以ρ表示数据对象
分类挖掘决策树算法、贝叶斯算法等
的局部密度，δ表示数据对象的聚类中心距离，设样本数
据集合：G＝{x1，x2，……，xn}。
…… ……
定义 1（欧氏距离）——属于常见距离度量中的一
图3 TCMDP的数据挖掘方法示意图
种，衡量的是空间中两点x和y间的直线距离，其计算公
Fig 3 Schematic diagram of data mining method of
TCMDP 式如下：
√ n n 2
d（x，y）＝ ∑ ∑ （xi－yj ） … … … … … … … … … （1）
i＝1 j＝1
定义 2（局部密度）——数据对象 xi的局部密度ρ i的
计算公式如下：
－d（xi，xj ）
ρi＝∑xj∈Ωe |Ω| … … … … … … … … … … … … … … （2）
式（1）（2）中Ω为ε r的邻域，|Ω|为Ω内数据点数目，
d（xi，xj ）为数据点xi与xj间的欧氏距离。
定义3（聚类中心距离）——聚类中心距离δ i的计算
图4 TCMDP中聚类挖掘功能界面图
公式如下：
Fig 4 Clustering mining function interface diagram min
of TCMDP j ρi＜ρj[d（xi，xj ）] i≥1
δi＝ { … … … … … … （3）
1.2 数据挖掘方法示例 max ρid（xi，xj ）ρi＝max
在本研究中，以治疗 PHC 的中药处方为例，采用 j
定义4（聚类中心选择的约束条件）——聚类中心选
TCMDP 软件中最常用的 CMC-DD 算法 [Clustering
择的约束条件的计算公式如下：
method combining DBSCAN and DPCA，即融合了基于
Φ＝ρiδi … … … … … … … … … … … … … … … … （4）
密度噪声应用的空间聚类算法（Density based spatial
式（3）（4）中，ρ i δi为每个数据点的局部密度ρ i与聚类
clustering of applications with noise，DBSCAN）和密度峰
值聚类算法（Density peaks clustering algorithm，DPCA）中心距离δi的乘积形成的列表数据。
的改进聚类算法]、WD-Get Rules 算法（Width and ②CMC-DD具体算法流程：CMC-DD聚类算法能够
depth-get rules，即融合了深度和宽度搜索的改进关联规很好地解决截断距离参数的影响，且无需人为干扰算法
则算法）和频次统计方法，对此类处方的配伍规律进行聚类中心的选择，其具体算法流程见图5。
分析。 1.2.2 WD-Get Rules算法
1.2.1 CMC-DD算法 WD-Get Rules 算法为本课题组设计的改进关联规
CMC-DD 算法是融合了 DBSCAN 算法和 DPCA 算则算法，可以更加有效地挖掘出隐藏在数据集中有意义
法的改进聚类算法。DPCA算法可以快速地发现数据集的关系。该算法首先采用宽度优先的策略，找出能作为
的密度峰值点，并能高效地分配样本点和剔除离群点，强关联规则的后件集H，该集合中每个后件为1项集，以
在社区发现、图像处理、计算机视觉和文本处理等领域 H 为基准，采用集合枚举树的关联规则进行深度搜
[11]
得到广泛应用，但是截断距离会对其聚类结果产生影索。不同于集合枚举树的关联规则，WD-Get Rules算
[8]
响；DBSCAN算法是基于密度的聚类算法，它不需要预法在进行深度搜索时，规则后件仅源自于H中所含有的
先指定聚类的簇数，能够在含有噪声的数据集中发现任元素，这样可避免不能作为规则后件的元素；且若项集
意数量和形状的簇，所以在聚类分析中有着广泛的应是频繁 k（k＞2）项集，H 中的元素个数大于 1，才进行深
用 [9-10] 。为了消除截断距离对 DPCA 算法聚类结果的影度搜索，否则对下一个频繁项集进行操作，其具体算法
响，本研究提出了CMC-DD算法，即主要利用DBSCAN 流程详见文献[12]。

·2968 · China Pharmacy 2020 Vol. 31 No. 24 中国药房 2020年第31卷第24期

25 26 27 28 29 30 31 32 33 34 35