Page 111 - 《中国药房》2026年8期
P. 111

表2 胃癌患者术前用药知识库                           耗时”作为过程性结局指标。依据患者疾病及术前用药
                          纳入亚组 药物品种数/                        的复杂程度,将药物重整任务划分为简单、中等、高难度
          药物种类      亚组                       具体亚类
                           数量/类  种                           3 个等级(由 2 名药师在不知晓 LLM 输出结果的前提下
          心血管系统用药   抗高血压药   7    51  血管紧张素转化酶抑制剂、血管紧张素Ⅱ受体    进行分级,若存在分歧则通过讨论达成一致)。人工药
                                     阻滞剂、β受体阻滞剂、钙通道阻滞剂、利尿剂、
                                     α受体阻滞剂、复方制剂             物重整耗时指参与评价的临床药师在模拟真实工作流
                    抗心绞痛药   4    24  硝酸酯类、β受体阻滞剂、钙通道阻滞剂、抗血   程的情况下完成药物重整的时间,即从开始核对患者既
                                     小板药                     往用药信息并检索相关指南资料起,至形成完整的用药
                    降脂药     4    16  他汀类、烟酸和苯氧酸衍生物、胆汁酸螯合剂、   建议为止,所记录的总耗时为人工药物重整耗时。LLM
                                     胆固醇吸收抑制剂
          血液及造血系统用药 抗血栓药    3    11  维生素K拮抗剂、新型口服抗凝药、抗血小板药   自动生成的药物重整耗时由系统后台自动记录,即从接
          消化与代谢系统用药 降糖药     9    46  双胍类、磺脲类、格列奈类、α-糖苷酶抑制剂、噻  收完整结构化患者信息输入开始,至生成完整药物重整
                                     唑烷二酮类、DPP-4抑制剂、SGLT-2抑制剂、胰  建议结束,所记录的系统运行时间为 LLM 药物重整耗
                                     岛素、复方制剂
                    营养治疗药   3    10  整蛋白肠内营养制剂、短肽型肠内营养制剂、整   时。根据药物重整任务划分的难易程度进行分组,分别
                                     蛋白纤维型肠内营养制剂             计算人工药物重整耗时与 LLM 药物重整耗时,以比较
                    止吐药     3    15  5-羟色胺3型受体拮抗剂、多巴胺受体拮抗剂、  两种模式在不同任务复杂程度下的效率差异。
                                     神经激肽-1受体拮抗剂             2.2.2 统计学方法
                    止泻药     3    7   阿片类受体激动剂、肠道物理吸附剂、脑啡肽酶
                                     抑制剂                         采用 Python(3.13 版本)和 Excel 2021 进行数据处
                    抑酸药     2    11  质子泵抑制剂、H2受体拮抗剂          理。本研究中,符合正态分布的计量资料以 x±s 表示,
                    促胃肠动力药  2    4   多巴胺受体拮抗剂、5-羟色胺4型受体激动剂   不符合正态分布的则以M(P25,P75 )表示。运用Spearman
          全身激素类用药   甲状腺激素   1    2   甲状腺激素类                  相关分析探究机器评分与人工评分的相关性;采用
                    抗甲状腺药   1    3   硫脲类
          神经系统用药    抗精神病药   1    6   非典型抗精神病药                Cronbach’s α 系数检验 3 名药师评分结果的内部一致
                                                                                        [19]
                    抗焦虑药    4    14  苯二氮 类、氮螺环癸二酮类、抗组胺药、氨基   性,α≥0.80 表示内部一致性好 。采用 Mann-Whitney
                                     甲酸类                     U 检验比较人工药物重整耗时和 LLM 药物重整耗时的
                    抗抑郁药    5    21  选择性5-羟色胺再摄取抑制剂、5-羟色胺-去甲  差异。检验水准α=0.05。
                                     肾上腺素再摄取抑制剂、三环类抗抑郁药、单胺
                                     氧化酶抑制剂、非典型抗抑郁药          2.3 本地化LLM生成药物重整建议的评价结果
          呼吸系统用药    平喘药     4    15  吸入性β₂受体激动剂、吸入性抗胆碱能药、吸入  2.3.1 机器评分
                                     性糖皮质激素、白三烯抑制剂               BERT Score平均得分如下:精确率为0.783±0.033,
          肌肉骨骼系统用药  风湿性疾病药  4    29  非甾体抗炎药、改善病情抗风湿药、糖皮质激    召回率为 0.811±0.038,F1 分数为(0.796±0.028)分。
                                     素、免疫抑制剂
                    抗痛风药    3    13  抑制尿酸生成药、促尿酸排泄药、抗痛风发作药   在ROUGE-1、ROUGE-2和ROUGE-L 3个层级上的精确
          全身用抗感染药   抗菌药     5    28  头孢菌素类、氟喹诺酮类、氨基糖苷类、硝基咪   率分别为 0.542±0.099、0.317±0.087、0.434±0.096;召
                                     唑类、克林霉素类
                                                             回率分别为 0.613±0.101、0.378±0.097、0.530±0.113;
             DPP-4:二肽基肽酶-4;SGLT-2:钠-葡萄糖协同转运蛋白2。
                                                             F1 分 数 分 别 为(0.566±0.067)、(0.338±0.076)、
          2.2 评价指标与方法                                       (0.468±0.082)分。结果见图2。
          2.2.1 评价指标                                           0.95                     1.0
                                                               0.90                     0.9
              采用机器评分与人工评分相结合的方式,对本地化                           0.85                     0.8
                                                                                        0.7
          LLM 辅助胃癌术前药物重整模式自动生成的药物重整                           率或分数  0.80               率或分数  0.6
                                                                                        0.5
                                                               0.75
          建议的质量进行评价。(1)机器评分:运用BERT Score和                      0.70                     0.4
                                                                                        0.3
                                                               0.65                     0.2
          ROUGE(包括 ROUGE-1、ROUGE-2、ROUGE-L)分别计                     精确率             召回率           F1分数  精确率             召回率           F1分数
                                                                      A. BERT Score            B. ROUGE-1
          算相应的精确率、召回率和F1分数,将生成文本和参考
                                                               0.7                      0.9
          文本进行对比      [16—17] 。本研究运用 Python 的 Jieba 库开展        0.6                      0.8
                                                                                        0.7
                                                               0.5
                                                                                        0.6
          文本分词工作,借助BERT Score/ROUGE库进行机器评                      率或分数  0.4               率或分数  0.5
                                                                                        0.4
                                                               0.3
          分计算,选用“bert-base-chinese”预训练模型,以精准计                  0.2                      0.3
                                                                                        0.2
                                                               0.1                      0.1
          算中文文本的BERT Score。(2)人工评分:借鉴电子病历                         精确率             召回率           F1分数  精确率             召回率           F1分数
                                                                       C. ROUGE-2              D. ROUGE-L
          人工评审方法,采用7DI评分体系 ,根据研究内容对其
                                      [18]
                                                             图2 生成文本与参考文本的 BERT Score 与 ROUGE
          中部分指标进行调整,涉及信息完整性、术语使用规范                                评分小提琴图
          性、逻辑一致性、语法结构、文体风格、问题识别全面性、
          建议可行性与针对性7个维度。所有生成的用药建议均                           2.3.2 人工评分
          由3名经验丰富的药师(编号1~3)进行评价。                                 3名药师的7DI评分分别为(33.45±1.49)、(32.06±
              为量化评估本地化LLM辅助胃癌术前药物重整相                         1.84)、(32.48±1.65)分。Spearman 相关分析结果显示,
          较于人工药物重整的效率优势,本研究引入“药物重整                           机器评分的 F1 分数与 3 名药师的 7DI 评分均呈显著正
          中国药房  2026年第37卷第8期                                                China Pharmacy  2026 Vol. 37  No. 8    · 1065 ·
   106   107   108   109   110   111   112   113   114   115   116