Page 8 - 《中国药房》2020年22期
P. 8

区;经过30多年的发展,国家高新区的队伍和规模不断                           参数服从 Dirichlet 分布;(3)每个主题是特征词上的多
        发展壮大,截至2019年12月,我国国家高新区总数已达                         项分布,该多项分布的参数服从Dirichlet分布。LDA主
        169家,完成了“示范、引领、辐射、带动”创新发展的政策                        题模型广泛用于提取文本中潜在的语义信息,并将文本
                                            [1]
        目标,已成为推动国家创新发展的主力军 。近年来,生                           数据分为文档层、主题层和特征词层,旨在从概率的角
        物医药产业作为国家拟定的战略新兴产业步入了高速                             度构建文档的生成过程 ,其概率模型图见图2。
                                                                                [11]
        发展阶段,逐渐成为了多个国家高新区发展的重点产
                                                                                文档
          [2]
        业 。其中,以泰州医药高新区、上海张江药谷为代表的
        主导生物医药产业的园区共 110 家,占高新区总数的                                      隐含主题
              [2]
        65.1% ;国家医药产业工业总产值从2007年的2 231.99
        亿元(占比6.66%)增长至2018年的8 495.38亿元(占比                           特征词
                [3-4]
        15.14%) ,在国家高新区的发展过程中占有举足轻重
                                                                    图1 LDA主题模型三层拓扑结构图
        的地位。                                                Fig 1 Three-layer topology structure diagram of LDA
            科技园区是推动高新技术产业高速发展的重要载                                 topic model
        体,世界各国纷纷建立了不同发展模式的科技园区(如
                                                      [5]
        著名的美国硅谷科技园)以提升自身的国际竞争力 。                                                     β       ψ
                                                      [6]
        其中,美国等西方国家的科技园区建设以市场为导向 ,                                                               K
        而我国高新区的建设与此不同,政府主导的科技园区建
                                                                    α       θ       Z        W
        设决定了国家高新区的高速发展离不开政府强有力的
                                                                                                N
        产业规划能力,政策环境是高技术产业进行技术创新、                                                                  M
                                     [7]
        人才引进和科学发展的前提条件 。政策作为推动我国                                          图2   LDA概率模型图
        国家高新区发展的重要工具,引起了众多学者的高度关                                    Fig 2  LDA probability graph model
        注,目前学术界对于高新区政策文本的研究多以量化评
                                                                图2中,α、β为先验参数,可根据经验给定;K为主题
        价为主。由于政策文本是一种较为特殊的文本,包含较
                                                            总数;θ、ψ分别表示每个文档的主题分布及每个主题的
        多的政策用词,政策用词的高维性在政策文本挖掘分析
                                                            词分布(即每个主题中所包含的主题词及其相关度),是
        过程中会降低文本聚类的效果,因此有必要对政策文本
                                                            未知的隐含变量;Z=(z1,z2,…,zk )表示文档的主题,W
                    [8]
        进行语义分析 。隐含狄利克雷分布(Latent Dirichlet al-
                                                           (w1,w2,…,wV )表示文档中的特征词,是可观测到的已
        location,LDA)主题模型是一种非监督学习模型,能够提
                                                            知变量,N为特征词的个数。LDA模型生成文档的过程
                           [8]
        取文本中潜在的主题 。与传统的定性分析方法不同,
                                                            分为两步:(1)从 Dirichlet(α)分布中生成每一篇文档的
        LDA 模型可以在政策文本聚类及主题提取的过程中避
                                                            主题分布θ并生成主题 Z 所包含的特征词 W。(2)从
                             [9]
        免人工编码的主观因素 。已有多位学者将 LDA 主题
                                                            Dirichlet(β)分布中生成 K 个主题的词分布并据此生成
        模型运用于政策文本的分析并取得了理想的实践结果,
                                                            特征词 W。以上过程重复 M 次即可生成整个语料库。
               [10]
        如郎玫 利用网络爬虫软件收集了 2006-2016 年甘肃
                                                            所有变量的联合分布计算公式如下:
        省14市(州)政府网站中体现政府职能的政策文本,并基
        于主题模型LDA算法分析中央和地方职能的匹配性和                                P(W|D)=∑P(W|Z)·P(Z|D) …     … … … … … … (1)
        对应性,初步证实了该省经济发展动力不足、区域创新                                式中,P(W|Z)是主题 Z 上的特征词分布值,P(Z|D)
        能力不足都与政府职能的匹配性有着很大的关联。本                             为文档 D 上的主题分布值,两者的联合概率分布 P
        研究以与生物医药产业相关的国家高新区园区层级政                            (W|D)构成了文档-主题-特征词关系。在LDA主题模型
        策文本为研究对象,通过探索政策文本高频关键词和主                            中,θ和ψ的参数估计可以使用变异期望最大化(EM)算
                                                              [12]
                                                                           [13]
        题分布特点,从整体上把握国家高新区生物医药产业的                            法 和Gibbs采样 等统计技术来完成。
        政策主题及发展重点,以期为我国生物医药产业发展提                                近年来,随着计算机技术的发展,已有多个软件可
        供参考。                                                用于本文数据分析中的主题建模和挖掘,如 SAS Text
        1 LDA主题模型的构建                                        Miner 和 SPSS Clementine 等商业软件包及 R 语言、Py-
                                                                                                    [14]
            LDA 主题模型是一个基于三层贝叶斯拓扑结构的                         thon和Java等程序包含的文本挖掘开源工具包 。Gen-
        概率生成模型,其三层拓扑结构图见图 1。该模型基于                           sim 包作为 Python 的第三方开源包,包含多种常见的自
        如下假设:(1)文档集合中存在 K 个主题且主题之间相                         然语言处理模型,如词向量模型、TF-IDF(Term frequen-
        互独立;(2)每个文档由K个主题随机混合组成,且主题                          cy-inverse document frequency)算法、LDA 主题模型等。


        ·2690 ·  China Pharmacy 2020 Vol. 31 No. 22                                 中国药房    2020年第31卷第22期
   3   4   5   6   7   8   9   10   11   12   13