Page 30 - 《中国药房》2020年第24期
P. 30

本课题组根据策略模式思想,研发了 TCMDP 这一                       算法优选出最佳的密度半径,进而消除截断距离对
        软件,其中封装了频次统计、关联、聚类、分类等多个方                           DPCA算法局部密度的影响。
        法,在每个不同的方法里面又有多个不同的算法(如图3                               为 使 DBSCAN 算 法 优 选 出 最 佳 的 密 度 半 径 ,
        所示)。以聚类挖掘为例,其功能操作界面如图4所示。                           CMC-DD 算法首先根据文献算法 优选出最佳密度参
                                                                                         [10]
                                                            数(ε r )来计算每个数据对象的局部密度(ρ),再计算出每
                         统计挖掘               频次统计
                                                            个数据对象的聚类中心距离(δ),计算出ρ·δ的标准差
                         关联挖掘          Apriori算法、WD-Get rules等
                                                           (STD),选出满足条件 STD 值最大的 k(簇类数)个点作
                                                            为聚类中心,最后把剩余的点划分到相邻最近的类中。
          数据挖掘方法         聚类挖掘         K-means算法、CMC-DD算法等
                                                                ①CMC-DD 算法基本概念如下:以ρ表示数据对象
                         分类挖掘          决策树算法、贝叶斯算法等
                                                            的局部密度,δ表示数据对象的聚类中心距离,设样本数
                                                            据集合:G={x1,x2,……,xn}。
                          ……                 ……
                                                                定义 1(欧氏距离)——属于常见距离度量中的一
                图3 TCMDP的数据挖掘方法示意图
                                                            种,衡量的是空间中两点x和y间的直线距离,其计算公
        Fig 3 Schematic diagram of data mining method of
               TCMDP                                        式如下:
                                                                        √  n  n     2
                                                                d(x,y)= ∑ ∑ (xi-yj ) …  … … … … … … … … (1)
                                                                         i=1 j=1
                                                                定义 2(局部密度)——数据对象 xi的局部密度ρ i的
                                                            计算公式如下:
                                                                         -d(xi,xj )
                                                                ρi=∑xj∈Ωe  |Ω|  … … … … … … … … … … … … … … (2)
                                                                式(1)(2)中Ω为ε r的邻域,|Ω|为Ω内数据点数目,
                                                            d(xi,xj )为数据点xi与xj间的欧氏距离。
                                                                定义3(聚类中心距离)——聚类中心距离δ i的计算
                图4   TCMDP中聚类挖掘功能界面图
                                                            公式如下:
        Fig 4  Clustering mining function interface diagram         min
               of TCMDP                                               j  ρi<ρj[d(xi,xj )] i≥1
                                                                δi= {                       … … … … … … (3)
        1.2  数据挖掘方法示例                                                max  ρid(xi,xj )ρi=max
            在本研究中,以治疗 PHC 的中药处方为例,采用                                  j
                                                                定义4(聚类中心选择的约束条件)——聚类中心选
        TCMDP 软 件 中 最 常 用 的 CMC-DD 算 法 [Clustering
                                                            择的约束条件的计算公式如下:
        method combining DBSCAN and DPCA,即融合了基于
                                                                Φ=ρiδi …  … … … … … … … … … … … … … … … (4)
        密度噪声应用的空间聚类算法(Density based spatial
                                                                式(3)(4)中,ρ i δi为每个数据点的局部密度ρ i与聚类
        clustering of applications with noise,DBSCAN)和密度峰
        值聚类算法(Density peaks clustering algorithm,DPCA)      中心距离δi的乘积形成的列表数据。
        的 改 进 聚 类 算 法]、WD-Get Rules 算 法(Width and               ②CMC-DD具体算法流程:CMC-DD聚类算法能够
        depth-get rules,即融合了深度和宽度搜索的改进关联规                   很好地解决截断距离参数的影响,且无需人为干扰算法
        则算法)和频次统计方法,对此类处方的配伍规律进行                            聚类中心的选择,其具体算法流程见图5。
        分析。                                                 1.2.2 WD-Get Rules算法
        1.2.1 CMC-DD算法                                          WD-Get Rules 算法为本课题组设计的改进关联规
            CMC-DD 算法是融合了 DBSCAN 算法和 DPCA 算                 则算法,可以更加有效地挖掘出隐藏在数据集中有意义
        法的改进聚类算法。DPCA算法可以快速地发现数据集                           的关系。该算法首先采用宽度优先的策略,找出能作为
        的密度峰值点,并能高效地分配样本点和剔除离群点,                            强关联规则的后件集H,该集合中每个后件为1项集,以
        在社区发现、图像处理、计算机视觉和文本处理等领域                            H 为基准,采用集合枚举树的关联规则进行深度搜
                                                              [11]
        得到广泛应用,但是截断距离会对其聚类结果产生影                             索 。不同于集合枚举树的关联规则,WD-Get Rules算
          [8]
        响 ;DBSCAN算法是基于密度的聚类算法,它不需要预                         法在进行深度搜索时,规则后件仅源自于H中所含有的
        先指定聚类的簇数,能够在含有噪声的数据集中发现任                            元素,这样可避免不能作为规则后件的元素;且若项集
        意数量和形状的簇,所以在聚类分析中有着广泛的应                             是频繁 k(k>2)项集,H 中的元素个数大于 1,才进行深
        用 [9-10] 。为了消除截断距离对 DPCA 算法聚类结果的影                   度搜索,否则对下一个频繁项集进行操作,其具体算法
        响,本研究提出了CMC-DD算法,即主要利用DBSCAN                        流程详见文献[12]。


        ·2968 ·  China Pharmacy 2020 Vol. 31 No. 24                                 中国药房    2020年第31卷第24期
   25   26   27   28   29   30   31   32   33   34   35