Page 13 - 《中国药房》2023年7期
P. 13
且分布不均衡、有效的罕见病诊疗方案缺乏、特效药非 现用户所关注的罕见病相关主题。LDA 是一个三层贝
常少且价格昂贵、公众对罕见病认识不足等问题的制 叶斯主题聚类模型,包含词汇、主题和文档三层结构 。
[4]
约,罕见病患者长期面临诊治难、经济负担重和社会支 其核心思想是:每一篇文档都是一些隐藏的主题构成的
[2]
持少等困境 。 概率分布,每一个主题都是多个词汇构成的概率分布,
近年来,国家高度重视罕见病的防治与保障工作, 这些分布均服从Dirichlet先验分布 。笔者首先采用将
[5]
继2018年编制出我国《第一批罕见病目录》之后,先后出 困惑度指标(perplexity)和基于pyLDAvis软件的主题聚
台了一系列政策和相关实施举措。2020年2月25日,在 类结果视图相结合的方法确定LDA主题分析的最佳主
中共中央、国务院发布的《关于深化医疗保障制度改革
题数。通常,困惑度越小,聚类效果越理想;聚类结果视
的意见》的指导下,国家卫生健康委等5部门持续进行了
图中每个类团之间分隔越明显,聚类效果越好。然后,
“探索罕见病用药保障机制”的改革。截至2020年10月
采用“二八定律”与概率分布阈值相结合的方法确定所
1日,已有涉及24种罕见病的55种药品被国家医保局纳
得主题的支持文档。支持文档是指以较大概率涉及某
[3]
入医保药品目录 。但是,在2021年之前都不曾有高值
个主题的文档合集,用于解读聚类后每个主题的涵义和
罕见病药进入国家基本药物目录。
[6]
凝练主题标签 。
诺西那生钠是 2016 年在美国获批的全球首个治疗
1.2.2 情感分析 情感分析的目的在于从文本、音频和
脊髓性肌萎缩症(spinal muscular atrophy,SMA)的靶向
[7]
图像等来获取人们的观点、看法、态度和情感等信息 。
药物。该药 2019 年在中国上市,因近 70 万元 1 支的天
采用百度人工智能(artificial intelligence,AI)情感分析
价,使大部分患者望而却步。2021 年 12 月 3 日,国家医
保局与药企谈判后将诺西那生钠以 3.3 万元 1 支的价格 工具读取用户的评论文本并分析其情感倾向分,得到每
纳入《国家基本医疗保险、工伤保险和生育保险药品目 个文本的情感得分(用 S 表示),S 的取值范围为[0,1]。
[8]
录(2021年)》。此次“天价药”诺西那生钠纳入医保事件 其值越接近0,情感越消极;越接近1,情感越积极 。文
开创了我国高值罕见病药入医保的先例,将极大减轻 本涉及的领域不同,其情感类别的划分标准也略有不
SMA患者家庭的经济负担。这引发了社会公众对罕见 同 [8―9] 。本文采取随机取样的方式人工判读了文本合集
病及罕见病医药保障问题的广泛关注和讨论。 中的 100 条评论文本所属的情感类别(积极、消极和中
本文通过分析社交媒体网站 Bilibili(下文称为“B 性),人工判别结果与评论文本的情感得分S之间基本符
站”)上用户关于“天价”罕见病药诺西那生钠纳入医保 合如下规则:消极情感类文本的情感得分区间为0≤S≤
事件的评论文本,挖掘反映用户关注问题及态度的文本 0.4,中性情感类文本的情感得分区间为 0.4<S≤0.6,积
主题和文本情感倾向,并基于数据分析结果构建我国罕 极情感类文本的情感得分区间为 0.6<S≤1。按此规
见病医药保障策略,旨在帮助我国医药卫生部门精准了 则,得到其余评论文本所属的情感类别。
解公众对罕见病医药保障问题的切实需求和所思所想, 2 结果
为国家和政府层面对罕见病医药保障相关政策、制度及
2.1 评论文本的主题分析结果
策略的制定与实施提供决策参考,从而加速我国罕见病
2.1.1 主题提取 利用 Python 代码调用 Gensim 软件
医药保障发展进程。
包,读取文本数据,进行LDA主题分析。其中的超参数
1 资料与方法
均设置为默认值。通过计算聚为不同主题数量时对应
1.1 数据收集与处理
的模型困惑度发现,当主题数为9时困惑度最小,因此本
1.1.1 数据收集 以“诺西那生钠”为关键词检索 B 站
文将主题数设为9。聚类结果可视化图谱(图1)中,左侧
中的短视频,筛选出以“诺西那生钠”为主题内容且播放
显示不同主题之间的距离及位置分布,圆圈代表主题。
量上万的视频共8个,采用Python自编爬虫工具抓取用
各圆圈之间相互独立,表示各主题之间区别分明,也表
户对视频的评论文本,获得7 109条文本数据(获取时间
明主题数为9时的聚类效果良好。圆圈上的数字代表主
为2022年3月1日)。
题占比(主题概率之和/所有文档数)排名,排名越靠前,
1.1.2 数据整理 对抓取到的评论文本进行去重、删除
无效评论等清洗工作后得到6 567条有效评论文本。在 圆圈面积越大。右侧的条形图显示与文本主题相关性
构建自定义的罕见病领域词表和停用词表的基础上,采 最高的前 30 个关键词及其相关性大小。当选中左侧某
用jieba分词工具对有效评论文本进行分词,分词结果作 一主题时,右侧即显示与其相关的关键词及相关性大
为下一步进行主题挖掘的数据对象。 小。对评论文本进行 LDA 主题分析后得到 2 个概率分
1.2 研究方法 布矩阵:文档-主题矩阵和主题-词汇矩阵。基于主题-词
1.2.1 LDA主题模型分析 采用潜在狄利克雷分布(la‐ 汇矩阵提取的9个主题的前15个高概率分布关键词(主
tent Dirichlet allocation,LDA)模型分析评论文本,以发 题关键词)及主题占比信息见表1。
中国药房 2023年第34卷第7期 China Pharmacy 2023 Vol. 34 No. 7 · 775 ·