Page 13 - 《中国药房》2023年7期
P. 13

且分布不均衡、有效的罕见病诊疗方案缺乏、特效药非                           现用户所关注的罕见病相关主题。LDA 是一个三层贝
          常少且价格昂贵、公众对罕见病认识不足等问题的制                            叶斯主题聚类模型,包含词汇、主题和文档三层结构 。
                                                                                                           [4]
          约,罕见病患者长期面临诊治难、经济负担重和社会支                           其核心思想是:每一篇文档都是一些隐藏的主题构成的
                    [2]
          持少等困境 。                                            概率分布,每一个主题都是多个词汇构成的概率分布,
              近年来,国家高度重视罕见病的防治与保障工作,                         这些分布均服从Dirichlet先验分布 。笔者首先采用将
                                                                                           [5]
          继2018年编制出我国《第一批罕见病目录》之后,先后出                        困惑度指标(perplexity)和基于pyLDAvis软件的主题聚
          台了一系列政策和相关实施举措。2020年2月25日,在                        类结果视图相结合的方法确定LDA主题分析的最佳主
          中共中央、国务院发布的《关于深化医疗保障制度改革
                                                             题数。通常,困惑度越小,聚类效果越理想;聚类结果视
          的意见》的指导下,国家卫生健康委等5部门持续进行了
                                                             图中每个类团之间分隔越明显,聚类效果越好。然后,
         “探索罕见病用药保障机制”的改革。截至2020年10月
                                                             采用“二八定律”与概率分布阈值相结合的方法确定所
          1日,已有涉及24种罕见病的55种药品被国家医保局纳
                                                             得主题的支持文档。支持文档是指以较大概率涉及某
                        [3]
          入医保药品目录 。但是,在2021年之前都不曾有高值
                                                             个主题的文档合集,用于解读聚类后每个主题的涵义和
          罕见病药进入国家基本药物目录。
                                                                         [6]
                                                             凝练主题标签 。
              诺西那生钠是 2016 年在美国获批的全球首个治疗
                                                             1.2.2 情感分析 情感分析的目的在于从文本、音频和
          脊髓性肌萎缩症(spinal muscular atrophy,SMA)的靶向
                                                                                                           [7]
                                                             图像等来获取人们的观点、看法、态度和情感等信息 。
          药物。该药 2019 年在中国上市,因近 70 万元 1 支的天
                                                             采用百度人工智能(artificial intelligence,AI)情感分析
          价,使大部分患者望而却步。2021 年 12 月 3 日,国家医
          保局与药企谈判后将诺西那生钠以 3.3 万元 1 支的价格                      工具读取用户的评论文本并分析其情感倾向分,得到每
          纳入《国家基本医疗保险、工伤保险和生育保险药品目                           个文本的情感得分(用 S 表示),S 的取值范围为[0,1]。
                                                                                                        [8]
          录(2021年)》。此次“天价药”诺西那生钠纳入医保事件                       其值越接近0,情感越消极;越接近1,情感越积极 。文
          开创了我国高值罕见病药入医保的先例,将极大减轻                            本涉及的领域不同,其情感类别的划分标准也略有不
          SMA患者家庭的经济负担。这引发了社会公众对罕见                           同 [8―9] 。本文采取随机取样的方式人工判读了文本合集
          病及罕见病医药保障问题的广泛关注和讨论。                               中的 100 条评论文本所属的情感类别(积极、消极和中
              本文通过分析社交媒体网站 Bilibili(下文称为“B                   性),人工判别结果与评论文本的情感得分S之间基本符
          站”)上用户关于“天价”罕见病药诺西那生钠纳入医保                          合如下规则:消极情感类文本的情感得分区间为0≤S≤
          事件的评论文本,挖掘反映用户关注问题及态度的文本                           0.4,中性情感类文本的情感得分区间为 0.4<S≤0.6,积
          主题和文本情感倾向,并基于数据分析结果构建我国罕                           极情感类文本的情感得分区间为 0.6<S≤1。按此规
          见病医药保障策略,旨在帮助我国医药卫生部门精准了                           则,得到其余评论文本所属的情感类别。
          解公众对罕见病医药保障问题的切实需求和所思所想,                           2 结果
          为国家和政府层面对罕见病医药保障相关政策、制度及
                                                             2.1 评论文本的主题分析结果
          策略的制定与实施提供决策参考,从而加速我国罕见病
                                                             2.1.1 主题提取 利用 Python 代码调用 Gensim 软件
          医药保障发展进程。
                                                             包,读取文本数据,进行LDA主题分析。其中的超参数
          1 资料与方法
                                                             均设置为默认值。通过计算聚为不同主题数量时对应
          1.1 数据收集与处理
                                                             的模型困惑度发现,当主题数为9时困惑度最小,因此本
          1.1.1 数据收集 以“诺西那生钠”为关键词检索 B 站
                                                             文将主题数设为9。聚类结果可视化图谱(图1)中,左侧
          中的短视频,筛选出以“诺西那生钠”为主题内容且播放
                                                             显示不同主题之间的距离及位置分布,圆圈代表主题。
          量上万的视频共8个,采用Python自编爬虫工具抓取用
                                                             各圆圈之间相互独立,表示各主题之间区别分明,也表
          户对视频的评论文本,获得7 109条文本数据(获取时间
                                                             明主题数为9时的聚类效果良好。圆圈上的数字代表主
          为2022年3月1日)。
                                                             题占比(主题概率之和/所有文档数)排名,排名越靠前,
          1.1.2 数据整理 对抓取到的评论文本进行去重、删除
          无效评论等清洗工作后得到6 567条有效评论文本。在                         圆圈面积越大。右侧的条形图显示与文本主题相关性
          构建自定义的罕见病领域词表和停用词表的基础上,采                           最高的前 30 个关键词及其相关性大小。当选中左侧某
          用jieba分词工具对有效评论文本进行分词,分词结果作                        一主题时,右侧即显示与其相关的关键词及相关性大
          为下一步进行主题挖掘的数据对象。                                   小。对评论文本进行 LDA 主题分析后得到 2 个概率分
          1.2 研究方法                                           布矩阵:文档-主题矩阵和主题-词汇矩阵。基于主题-词
          1.2.1 LDA主题模型分析 采用潜在狄利克雷分布(la‐                     汇矩阵提取的9个主题的前15个高概率分布关键词(主
          tent Dirichlet allocation,LDA)模型分析评论文本,以发          题关键词)及主题占比信息见表1。


          中国药房  2023年第34卷第7期                                                 China Pharmacy  2023 Vol. 34  No. 7    · 775 ·
   8   9   10   11   12   13   14   15   16   17   18