Page 111 - 《中国药房》2026年8期
P. 111
表2 胃癌患者术前用药知识库 耗时”作为过程性结局指标。依据患者疾病及术前用药
纳入亚组 药物品种数/ 的复杂程度,将药物重整任务划分为简单、中等、高难度
药物种类 亚组 具体亚类
数量/类 种 3 个等级(由 2 名药师在不知晓 LLM 输出结果的前提下
心血管系统用药 抗高血压药 7 51 血管紧张素转化酶抑制剂、血管紧张素Ⅱ受体 进行分级,若存在分歧则通过讨论达成一致)。人工药
阻滞剂、β受体阻滞剂、钙通道阻滞剂、利尿剂、
α受体阻滞剂、复方制剂 物重整耗时指参与评价的临床药师在模拟真实工作流
抗心绞痛药 4 24 硝酸酯类、β受体阻滞剂、钙通道阻滞剂、抗血 程的情况下完成药物重整的时间,即从开始核对患者既
小板药 往用药信息并检索相关指南资料起,至形成完整的用药
降脂药 4 16 他汀类、烟酸和苯氧酸衍生物、胆汁酸螯合剂、 建议为止,所记录的总耗时为人工药物重整耗时。LLM
胆固醇吸收抑制剂
血液及造血系统用药 抗血栓药 3 11 维生素K拮抗剂、新型口服抗凝药、抗血小板药 自动生成的药物重整耗时由系统后台自动记录,即从接
消化与代谢系统用药 降糖药 9 46 双胍类、磺脲类、格列奈类、α-糖苷酶抑制剂、噻 收完整结构化患者信息输入开始,至生成完整药物重整
唑烷二酮类、DPP-4抑制剂、SGLT-2抑制剂、胰 建议结束,所记录的系统运行时间为 LLM 药物重整耗
岛素、复方制剂
营养治疗药 3 10 整蛋白肠内营养制剂、短肽型肠内营养制剂、整 时。根据药物重整任务划分的难易程度进行分组,分别
蛋白纤维型肠内营养制剂 计算人工药物重整耗时与 LLM 药物重整耗时,以比较
止吐药 3 15 5-羟色胺3型受体拮抗剂、多巴胺受体拮抗剂、 两种模式在不同任务复杂程度下的效率差异。
神经激肽-1受体拮抗剂 2.2.2 统计学方法
止泻药 3 7 阿片类受体激动剂、肠道物理吸附剂、脑啡肽酶
抑制剂 采用 Python(3.13 版本)和 Excel 2021 进行数据处
抑酸药 2 11 质子泵抑制剂、H2受体拮抗剂 理。本研究中,符合正态分布的计量资料以 x±s 表示,
促胃肠动力药 2 4 多巴胺受体拮抗剂、5-羟色胺4型受体激动剂 不符合正态分布的则以M(P25,P75 )表示。运用Spearman
全身激素类用药 甲状腺激素 1 2 甲状腺激素类 相关分析探究机器评分与人工评分的相关性;采用
抗甲状腺药 1 3 硫脲类
神经系统用药 抗精神病药 1 6 非典型抗精神病药 Cronbach’s α 系数检验 3 名药师评分结果的内部一致
[19]
抗焦虑药 4 14 苯二氮 类、氮螺环癸二酮类、抗组胺药、氨基 性,α≥0.80 表示内部一致性好 。采用 Mann-Whitney
甲酸类 U 检验比较人工药物重整耗时和 LLM 药物重整耗时的
抗抑郁药 5 21 选择性5-羟色胺再摄取抑制剂、5-羟色胺-去甲 差异。检验水准α=0.05。
肾上腺素再摄取抑制剂、三环类抗抑郁药、单胺
氧化酶抑制剂、非典型抗抑郁药 2.3 本地化LLM生成药物重整建议的评价结果
呼吸系统用药 平喘药 4 15 吸入性β₂受体激动剂、吸入性抗胆碱能药、吸入 2.3.1 机器评分
性糖皮质激素、白三烯抑制剂 BERT Score平均得分如下:精确率为0.783±0.033,
肌肉骨骼系统用药 风湿性疾病药 4 29 非甾体抗炎药、改善病情抗风湿药、糖皮质激 召回率为 0.811±0.038,F1 分数为(0.796±0.028)分。
素、免疫抑制剂
抗痛风药 3 13 抑制尿酸生成药、促尿酸排泄药、抗痛风发作药 在ROUGE-1、ROUGE-2和ROUGE-L 3个层级上的精确
全身用抗感染药 抗菌药 5 28 头孢菌素类、氟喹诺酮类、氨基糖苷类、硝基咪 率分别为 0.542±0.099、0.317±0.087、0.434±0.096;召
唑类、克林霉素类
回率分别为 0.613±0.101、0.378±0.097、0.530±0.113;
DPP-4:二肽基肽酶-4;SGLT-2:钠-葡萄糖协同转运蛋白2。
F1 分 数 分 别 为(0.566±0.067)、(0.338±0.076)、
2.2 评价指标与方法 (0.468±0.082)分。结果见图2。
2.2.1 评价指标 0.95 1.0
0.90 0.9
采用机器评分与人工评分相结合的方式,对本地化 0.85 0.8
0.7
LLM 辅助胃癌术前药物重整模式自动生成的药物重整 率或分数 0.80 率或分数 0.6
0.5
0.75
建议的质量进行评价。(1)机器评分:运用BERT Score和 0.70 0.4
0.3
0.65 0.2
ROUGE(包括 ROUGE-1、ROUGE-2、ROUGE-L)分别计 精确率 召回率 F1分数 精确率 召回率 F1分数
A. BERT Score B. ROUGE-1
算相应的精确率、召回率和F1分数,将生成文本和参考
0.7 0.9
文本进行对比 [16—17] 。本研究运用 Python 的 Jieba 库开展 0.6 0.8
0.7
0.5
0.6
文本分词工作,借助BERT Score/ROUGE库进行机器评 率或分数 0.4 率或分数 0.5
0.4
0.3
分计算,选用“bert-base-chinese”预训练模型,以精准计 0.2 0.3
0.2
0.1 0.1
算中文文本的BERT Score。(2)人工评分:借鉴电子病历 精确率 召回率 F1分数 精确率 召回率 F1分数
C. ROUGE-2 D. ROUGE-L
人工评审方法,采用7DI评分体系 ,根据研究内容对其
[18]
图2 生成文本与参考文本的 BERT Score 与 ROUGE
中部分指标进行调整,涉及信息完整性、术语使用规范 评分小提琴图
性、逻辑一致性、语法结构、文体风格、问题识别全面性、
建议可行性与针对性7个维度。所有生成的用药建议均 2.3.2 人工评分
由3名经验丰富的药师(编号1~3)进行评价。 3名药师的7DI评分分别为(33.45±1.49)、(32.06±
为量化评估本地化LLM辅助胃癌术前药物重整相 1.84)、(32.48±1.65)分。Spearman 相关分析结果显示,
较于人工药物重整的效率优势,本研究引入“药物重整 机器评分的 F1 分数与 3 名药师的 7DI 评分均呈显著正
中国药房 2026年第37卷第8期 China Pharmacy 2026 Vol. 37 No. 8 · 1065 ·

