Page 111 - 《中国药房》2026年8期

P. 111

表2 胃癌患者术前用药知识库耗时”作为过程性结局指标。依据患者疾病及术前用药
纳入亚组药物品种数/ 的复杂程度，将药物重整任务划分为简单、中等、高难度
药物种类亚组具体亚类
数量/类种 3 个等级（由 2 名药师在不知晓 LLM 输出结果的前提下
心血管系统用药抗高血压药 7 51 血管紧张素转化酶抑制剂、血管紧张素Ⅱ受体进行分级，若存在分歧则通过讨论达成一致）。人工药
阻滞剂、β受体阻滞剂、钙通道阻滞剂、利尿剂、
α受体阻滞剂、复方制剂物重整耗时指参与评价的临床药师在模拟真实工作流
抗心绞痛药 4 24 硝酸酯类、β受体阻滞剂、钙通道阻滞剂、抗血程的情况下完成药物重整的时间，即从开始核对患者既
小板药往用药信息并检索相关指南资料起，至形成完整的用药
降脂药 4 16 他汀类、烟酸和苯氧酸衍生物、胆汁酸螯合剂、建议为止，所记录的总耗时为人工药物重整耗时。LLM
胆固醇吸收抑制剂
血液及造血系统用药抗血栓药 3 11 维生素K拮抗剂、新型口服抗凝药、抗血小板药自动生成的药物重整耗时由系统后台自动记录，即从接
消化与代谢系统用药降糖药 9 46 双胍类、磺脲类、格列奈类、α-糖苷酶抑制剂、噻收完整结构化患者信息输入开始，至生成完整药物重整
唑烷二酮类、DPP-4抑制剂、SGLT-2抑制剂、胰建议结束，所记录的系统运行时间为 LLM 药物重整耗
岛素、复方制剂
营养治疗药 3 10 整蛋白肠内营养制剂、短肽型肠内营养制剂、整时。根据药物重整任务划分的难易程度进行分组，分别
蛋白纤维型肠内营养制剂计算人工药物重整耗时与 LLM 药物重整耗时，以比较
止吐药 3 15 5-羟色胺3型受体拮抗剂、多巴胺受体拮抗剂、两种模式在不同任务复杂程度下的效率差异。
神经激肽-1受体拮抗剂 2.2.2 统计学方法
止泻药 3 7 阿片类受体激动剂、肠道物理吸附剂、脑啡肽酶
抑制剂采用 Python（3.13 版本）和 Excel 2021 进行数据处
抑酸药 2 11 质子泵抑制剂、H2受体拮抗剂理。本研究中，符合正态分布的计量资料以 x±s 表示，
促胃肠动力药 2 4 多巴胺受体拮抗剂、5-羟色胺4型受体激动剂不符合正态分布的则以M（P25，P75 ）表示。运用Spearman
全身激素类用药甲状腺激素 1 2 甲状腺激素类相关分析探究机器评分与人工评分的相关性；采用
抗甲状腺药 1 3 硫脲类
神经系统用药抗精神病药 1 6 非典型抗精神病药 Cronbach’s α 系数检验 3 名药师评分结果的内部一致
[19]
抗焦虑药 4 14 苯二氮类、氮螺环癸二酮类、抗组胺药、氨基性，α≥0.80 表示内部一致性好。采用 Mann-Whitney
甲酸类 U 检验比较人工药物重整耗时和 LLM 药物重整耗时的
抗抑郁药 5 21 选择性5-羟色胺再摄取抑制剂、5-羟色胺-去甲差异。检验水准α＝0.05。
肾上腺素再摄取抑制剂、三环类抗抑郁药、单胺
氧化酶抑制剂、非典型抗抑郁药 2.3 本地化LLM生成药物重整建议的评价结果
呼吸系统用药平喘药 4 15 吸入性β₂受体激动剂、吸入性抗胆碱能药、吸入 2.3.1 机器评分
性糖皮质激素、白三烯抑制剂 BERT Score平均得分如下：精确率为0.783±0.033，
肌肉骨骼系统用药风湿性疾病药 4 29 非甾体抗炎药、改善病情抗风湿药、糖皮质激召回率为 0.811±0.038，F1 分数为（0.796±0.028）分。
素、免疫抑制剂
抗痛风药 3 13 抑制尿酸生成药、促尿酸排泄药、抗痛风发作药在ROUGE-1、ROUGE-2和ROUGE-L 3个层级上的精确
全身用抗感染药抗菌药 5 28 头孢菌素类、氟喹诺酮类、氨基糖苷类、硝基咪率分别为 0.542±0.099、0.317±0.087、0.434±0.096；召
唑类、克林霉素类
回率分别为 0.613±0.101、0.378±0.097、0.530±0.113；
DPP-4：二肽基肽酶-4；SGLT-2：钠-葡萄糖协同转运蛋白2。
F1 分数分别为（0.566±0.067）、（0.338±0.076）、
2.2 评价指标与方法（0.468±0.082）分。结果见图2。
2.2.1 评价指标 0.95 1.0
0.90 0.9
采用机器评分与人工评分相结合的方式，对本地化 0.85 0.8
0.7
LLM 辅助胃癌术前药物重整模式自动生成的药物重整率或分数 0.80 率或分数 0.6
0.5
0.75
建议的质量进行评价。（1）机器评分：运用BERT Score和 0.70 0.4
0.3
0.65 0.2
ROUGE（包括 ROUGE-1、ROUGE-2、ROUGE-L）分别计精确率召回率 F1分数精确率召回率 F1分数
A. BERT Score B. ROUGE-1
算相应的精确率、召回率和F1分数，将生成文本和参考
0.7 0.9
文本进行对比 [16—17] 。本研究运用 Python 的 Jieba 库开展 0.6 0.8
0.7
0.5
0.6
文本分词工作，借助BERT Score/ROUGE库进行机器评率或分数 0.4 率或分数 0.5
0.4
0.3
分计算，选用“bert-base-chinese”预训练模型，以精准计 0.2 0.3
0.2
0.1 0.1
算中文文本的BERT Score。（2）人工评分：借鉴电子病历精确率召回率 F1分数精确率召回率 F1分数
C. ROUGE-2 D. ROUGE-L
人工评审方法，采用7DI评分体系，根据研究内容对其
[18]
图2 生成文本与参考文本的 BERT Score 与 ROUGE
中部分指标进行调整，涉及信息完整性、术语使用规范评分小提琴图
性、逻辑一致性、语法结构、文体风格、问题识别全面性、
建议可行性与针对性7个维度。所有生成的用药建议均 2.3.2 人工评分
由3名经验丰富的药师（编号1～3）进行评价。 3名药师的7DI评分分别为（33.45±1.49）、（32.06±
为量化评估本地化LLM辅助胃癌术前药物重整相 1.84）、（32.48±1.65）分。Spearman 相关分析结果显示，
较于人工药物重整的效率优势，本研究引入“药物重整机器评分的 F1 分数与 3 名药师的 7DI 评分均呈显著正
中国药房 2026年第37卷第8期 China Pharmacy 2026 Vol. 37 No. 8 · 1065 ·

106 107 108 109 110 111 112 113 114 115 116