Page 8 - 《中国药房》2020年22期
P. 8
区;经过30多年的发展,国家高新区的队伍和规模不断 参数服从 Dirichlet 分布;(3)每个主题是特征词上的多
发展壮大,截至2019年12月,我国国家高新区总数已达 项分布,该多项分布的参数服从Dirichlet分布。LDA主
169家,完成了“示范、引领、辐射、带动”创新发展的政策 题模型广泛用于提取文本中潜在的语义信息,并将文本
[1]
目标,已成为推动国家创新发展的主力军 。近年来,生 数据分为文档层、主题层和特征词层,旨在从概率的角
物医药产业作为国家拟定的战略新兴产业步入了高速 度构建文档的生成过程 ,其概率模型图见图2。
[11]
发展阶段,逐渐成为了多个国家高新区发展的重点产
文档
[2]
业 。其中,以泰州医药高新区、上海张江药谷为代表的
主导生物医药产业的园区共 110 家,占高新区总数的 隐含主题
[2]
65.1% ;国家医药产业工业总产值从2007年的2 231.99
亿元(占比6.66%)增长至2018年的8 495.38亿元(占比 特征词
[3-4]
15.14%) ,在国家高新区的发展过程中占有举足轻重
图1 LDA主题模型三层拓扑结构图
的地位。 Fig 1 Three-layer topology structure diagram of LDA
科技园区是推动高新技术产业高速发展的重要载 topic model
体,世界各国纷纷建立了不同发展模式的科技园区(如
[5]
著名的美国硅谷科技园)以提升自身的国际竞争力 。 β ψ
[6]
其中,美国等西方国家的科技园区建设以市场为导向 , K
而我国高新区的建设与此不同,政府主导的科技园区建
α θ Z W
设决定了国家高新区的高速发展离不开政府强有力的
N
产业规划能力,政策环境是高技术产业进行技术创新、 M
[7]
人才引进和科学发展的前提条件 。政策作为推动我国 图2 LDA概率模型图
国家高新区发展的重要工具,引起了众多学者的高度关 Fig 2 LDA probability graph model
注,目前学术界对于高新区政策文本的研究多以量化评
图2中,α、β为先验参数,可根据经验给定;K为主题
价为主。由于政策文本是一种较为特殊的文本,包含较
总数;θ、ψ分别表示每个文档的主题分布及每个主题的
多的政策用词,政策用词的高维性在政策文本挖掘分析
词分布(即每个主题中所包含的主题词及其相关度),是
过程中会降低文本聚类的效果,因此有必要对政策文本
未知的隐含变量;Z=(z1,z2,…,zk )表示文档的主题,W
[8]
进行语义分析 。隐含狄利克雷分布(Latent Dirichlet al-
(w1,w2,…,wV )表示文档中的特征词,是可观测到的已
location,LDA)主题模型是一种非监督学习模型,能够提
知变量,N为特征词的个数。LDA模型生成文档的过程
[8]
取文本中潜在的主题 。与传统的定性分析方法不同,
分为两步:(1)从 Dirichlet(α)分布中生成每一篇文档的
LDA 模型可以在政策文本聚类及主题提取的过程中避
主题分布θ并生成主题 Z 所包含的特征词 W。(2)从
[9]
免人工编码的主观因素 。已有多位学者将 LDA 主题
Dirichlet(β)分布中生成 K 个主题的词分布并据此生成
模型运用于政策文本的分析并取得了理想的实践结果,
特征词 W。以上过程重复 M 次即可生成整个语料库。
[10]
如郎玫 利用网络爬虫软件收集了 2006-2016 年甘肃
所有变量的联合分布计算公式如下:
省14市(州)政府网站中体现政府职能的政策文本,并基
于主题模型LDA算法分析中央和地方职能的匹配性和 P(W|D)=∑P(W|Z)·P(Z|D) … … … … … … … (1)
对应性,初步证实了该省经济发展动力不足、区域创新 式中,P(W|Z)是主题 Z 上的特征词分布值,P(Z|D)
能力不足都与政府职能的匹配性有着很大的关联。本 为文档 D 上的主题分布值,两者的联合概率分布 P
研究以与生物医药产业相关的国家高新区园区层级政 (W|D)构成了文档-主题-特征词关系。在LDA主题模型
策文本为研究对象,通过探索政策文本高频关键词和主 中,θ和ψ的参数估计可以使用变异期望最大化(EM)算
[12]
[13]
题分布特点,从整体上把握国家高新区生物医药产业的 法 和Gibbs采样 等统计技术来完成。
政策主题及发展重点,以期为我国生物医药产业发展提 近年来,随着计算机技术的发展,已有多个软件可
供参考。 用于本文数据分析中的主题建模和挖掘,如 SAS Text
1 LDA主题模型的构建 Miner 和 SPSS Clementine 等商业软件包及 R 语言、Py-
[14]
LDA 主题模型是一个基于三层贝叶斯拓扑结构的 thon和Java等程序包含的文本挖掘开源工具包 。Gen-
概率生成模型,其三层拓扑结构图见图 1。该模型基于 sim 包作为 Python 的第三方开源包,包含多种常见的自
如下假设:(1)文档集合中存在 K 个主题且主题之间相 然语言处理模型,如词向量模型、TF-IDF(Term frequen-
互独立;(2)每个文档由K个主题随机混合组成,且主题 cy-inverse document frequency)算法、LDA 主题模型等。
·2690 · China Pharmacy 2020 Vol. 31 No. 22 中国药房 2020年第31卷第22期