Page 9 - 《中国药房》2020年22期
P. 9

鉴于Gensim包提供的自然语言处理工具在文本挖掘中                         词汇的权重,并可提升稀有词汇的权重 ,其计算公式
                                                                                              [15]
        应用的方便性及全面性,本研究采用 Gensim 包对国家                       如下:
        高新区发布的生物医药产业相关政策文本展开研究。                                TFw=在某一类中词条w出现的次数/该类中所有词
        2 资料来源                                             条数目 …     … … … … … … … … … … … … … … … … … (2)
            收集 2010 年 1 月-2019 年 12 月我国现有 169 家国               IDF=Ig[语料库的文档总数/(包含词条w的文楼
        家高新区官方网站上发布的政策文件,从中筛选出专门                           数+1)] …   … … … … … … … … … … … … … … … … … (3)
        针对生物医药产业方面的政策以及全部产业政策中提                                TF-IDF=TF·IDF …     … … … … … … … … … … (4)
        及生物医药产业发展的政策。排除仅体现政府对国家                            3.3 模型参数设置
        高新区发展态度的政策文本、与国家高新区相关性较低                               LDA主题模型取决于3个参数:Dirichlet超参数α和
                                                                                                   [13]
        的政策文本(如一些人事变更通知等)等。文件类型包                           β以及主题数量 K。本研究参考 Griffiths TL 等 提出的
        括法律、条例、意见、通知、办法、措施、细则、决定、方案                        方案,将经验值α设为 50/K、β设为 0.1,作为初始模型参
        等。采用Excel 2019软件进行政策信息的汇总分析。                       数;在初始参数值附近不断调试,同时观察模型结果确
        3 文件检索结果及数据处理                                      定最优参数,最终调参结果为α=0.2、β=0.1。本研究采
                                                                                          [16]
        3.1 文件检索结果及分布情况                                    用“主题一致性(Topic coherence)” 评价主题模型,一
            按照上述政策检索和筛选方法,本研究共获得国家                         致性分数(Coherence value)越高,表示主题可解释性越
        高新区生物医药产业相关政策文本 518 件,涉及高新区                        强。因本研究政策文本样本量为 518,当主题数量过高
        132家,其余37家国家高新区因其官网未发布涉及生物                         时,模型不稳定,须结合主题一致性折线图(如图4所示)
                                                                                 [17]
        医药产业的政策文件或未建立官方网站而未获得有效                            取 10 以下的最优主题数 。由图 4 可知,最优主题数
        信息。518件政策文本的地区分布见图3。由图3可知,                         K=8。
        与生物医药产业相关的政策文本主要集中在东部地区。                                 0.48               0.467 7          0.468 6
                                                                                         0.463 4
                                                                 0.46
                350                                                              0.441 7      0.437 2  0.463 1
                        314              高新区数量                   0.44         0.426 9
                300                      政策文本数量                  0.42       0.412 4          0.427 0
                250                                            Coherence value  0.40  0.399 1  0.419 1
               家/个  200                                          0.38  0.378 1  0.399 3
               数量,  150           142                            0.36

                100                                              0.34
                      67                    62                        2  3  4  5  6  7  8  9  10  11  12 13  14
                 50             45                                                    K
                                          20
                 0                                                     图4   主题一致性分数折线图
                      东部地区      中部地区     西部地区
                                 地区                             Fig 4  Thematic consistence value line chart
                 图3    518件政策文本的地区分布
                                                           4 结果
            Fig 3  Regional distribution of 518 policy texts
                                                           4.1  高频词汇分析
        3.2  政策文本预处理
                                                               采用上述方法对本研究纳入的政策文本进行预处
            以518件国家高新区生物医药产业园区层级政策文
                                                           理,并对分词得出的 58 617 个词汇进行词频统计,结果
        本为语料库,采用Genisim中的Jieba分词工具包并结合
                                                           见表 1(因篇幅所限,本文仅列出前 10 个高频词汇);选
        正则表达式(去除字母、数字等非中文字符)进行中文分
                                                           取排名前200位的关键词绘制词云图,结果见图5(图中
        词。融合《中文停用词库》《哈工大停用词》作为本研究
                                                           关键词字号越大,词频越高)。
        的停用词表,去掉长度小于2的词汇以及“企业”“组织”
                                                                    表1 政策文本高频词汇(前10个)
        等政策文本的常规名词词汇,同时加载基于国家高新区
                                                            Tab 1 High-frequency words of policy texts(Top 10)
        和政策文本的自定义词典以提升分词效果,最终获得有
                                                           高频词汇      词频,次    占比,%    高频词汇    词频,次    占比,%
        效词汇58 617个。                                        项目         2 441   4.16    资金      1 443   2.46
            为了构建合适的数据结构,使其具有 Gensim 主题                     人才         2 319   3.96    补助      1 295   2.21
                                                           支持         2 071   3.53    创业      1 232   2.10
        建模可以处理的输入格式,本研究采用词袋模型(Bag                          补贴         1 542   2.63    科技      1 114   1.90
        of words)的形式来表示文档。该模型可以忽略每个词                       创新         1 526   2.60    机构      1 104   1.88
        汇出现的顺序,将每篇文档表示成一个长向量。同时,                               上述政策文本关键词词云图基本可以体现我国国
        引入 TF-IDF 算法进行词向量加权,建立词项文档矩阵                       家高新区生物医药产业政策的集中情况。例如,高频词
       (DTM)。TF-IDF算法可减少在多篇文档中频繁出现的                       “支持”“扶持”等词汇体现出我国国家高新区生物医药


        中国药房    2020年第31卷第22期                                            China Pharmacy 2020 Vol. 31 No. 22  ·2691 ·
   4   5   6   7   8   9   10   11   12   13   14