Page 125 - 《中国药房》2025年11期
P. 125

器学习方法在二分类模型测试集的性能指标超过了训                                      30
          练集的性能,这表明模型在训练过程中已经充分掌握了                                     25
                                                                       20
          数据的特征和规律,达到了较好的性能。
                                                                      频率  15
            表3 不同分类模型中各机器学习方法的性能指标                                     10
                                                                        5
                           三分类模型             二分类模型                      0
                                                                         0.74   0.75   0.76   0.77   0.78
          机器学习方法     准确率(训练 F1分数(训练  AUC  准确率(训练 F1分数(训练  AUC                      准确率
                     集/测试集)  集/测试集) (测试集) 集/测试集)  集/测试集) (测试集)  图3 二分类模型 CatBoost 方法敏感性分析的准确率
          Random Forest  0.716 3/0.705 0 0.714 1/0.704 0 0.519 3 0.668 9/0.740 5 0.668 9/0.739 0 0.822 7
                                                                  分布
          GBDT       0.697 5/0.611 5 0.695 0/0.617 3 0.550 4 0.599 3/0.732 8 0.599 1/0.732 5 0.807 1
          AdaBoost   0.644 6/0.640 3 0.640 8/0.644 9 0.677 4 0.625 8/0.717 6 0.625 6/0.718 7 0.761 1  现最佳,其测试集 F1 分数为 0.704 0;而在二分类模型
          Support Vector Machine 0.479 1/0.388 5 0.433 9/0.400 3 0.446 2 0.591 0/0.610 7 0.582 4/0.605 8 0.754 5  中,CatBoost 方法最优,其测试集 F1 分数为 0.785 7。通
          Logistic Regression  0.525 3/0.474 8 0.494 5/0.510 7 0.471 6 0.596 0/0.664 1 0.593 4/0.665 9 0.748 1
                                                             过XGBoost重要性评分发现,三分类和二分类模型的16
          Ridge Classifier  0.530 9/0.388 5 0.480 0/0.391 9 0.427 7 0.601 0/0.694 7 0.598 3/0.695 7 0.766 9
          K-Nearest Neighbors  0.652 3/0.546 8 0.634 2/0.571 3 0.478 9 0.648 9/0.610 7 0.648 2/0.612 6 0.679 0  个特征中有 15 个相同,仅合并电解质紊乱和给药途径
          Decision Tree  0.653 4/0.575 5 0.653 3/0.580 6 0.513 9 0.632 4/0.641 2 0.632 1/0.643 0 0.641 4  (口服)2个特征在2个模型中有所不同。这些特征组成
          Extra Trees  0.734 0/0.683 5 0.729 6/0.678 0 0.499 5 0.693 7/0.740 5 0.693 5/0.741 0 0.811 9  及导致其在不同模型中排名高低的潜在原因包括:(1)
          XGBoost    0.709 6/0.654 7 0.706 9/0.651 2 0.537 1 0.644 0/0.702 3 0.643 8/0.701 9 0.778 6
          CatBoost   0.730 6/0.690 6 0.726 6/0.683 6 0.524 3 0.668 8/0.786 3 0.668 5/0.785 7 0.819 5  患者的年龄、性别、体重及日剂量是影响 VPA 清除率的
                                                                                                 [7]
          LightGBM   0.700 8/0.647 5 0.699 3/0.645 0 0.550 5 0.627 5/0.725 2 0.627 1/0.725 7 0.784 8  关键协变量,进而影响了 VPA 的血药浓度 。(2)合并使
                                                             用碳青霉烯类抗生素(如美罗培南、亚胺培南)后VPA血
                   1.0
                                                             药浓度显著降低,会增加癫痫发作风险                  [5,14] ;再者,合并
                   0.9
                                                             使用具有酶诱导作用的抗癫痫药(如卡马西平、苯巴比
                  准确率  0.8                                   妥、苯妥英钠)会降低VPA血药浓度,可能诱发惊厥或癫
                   0.7
                                                                   [15]
                                                             痫发作 。(3)肝、肾功能指标如 AST、ALT、胱抑素 C 等
                   0.6
                       训练准确率                                 异常会影响 VPA 的代谢与排泄,导致 VPA 血药浓度升
                       交叉验证准确率
                   0.5                                         [16―18]
                       100   200   300   400   500   600   700  高  。(4)VPA血药浓度与血液毒性相关,VPA血药浓
                                 训练样本数                                                               [19―20]
                                                             度升高可能会导致血小板和白细胞计数异常                         。(5)
          图1 三分类模型中的Random Forest方法的学习曲线
                                                             VPA的超限可能会引起代谢性酸中毒,继而造成电解质
          2.4 模型敏感性分析结果                                      紊乱 。
                                                                 [21]
              图 2 和图 3 分别展示了 2 类模型中最优机器学习方                       相较于其他研究,本研究展现了 3 个显著特点:(1)
          法的敏感性分析的准确率分布直方图,具体结果为:三                           样本源自综合性医院,覆盖多科室、多病种、多患者来
          分类模型中Random Forest方法敏感性分析的准确率平                     源,还包括VPA血药浓度超限的样本,数据集多样性强,
          均值为 0.680 4、标准差为 0.016 5,二分类模型中 Cat‐               在三分类模型中测试集的F1分数达0.704 0。(2)本研究
          Boost 方法敏感性分析的准确率平均值为 0.761 8、标准                   是在剔除超限组样本数据后完成的二分类建模,即便样
          差为0.010 1。                                         本量相对较小,但二分类模型中测试集的 F1 分数仍达
                                                                                         [13]
                                                             到0.785 7,接近大样本模型性能 。(3)本研究通过比较
                   20.0
                   17.5                                      三分类和二分类模型的XGBoost特征排名,发现合并肾
                   15.0
                   12.5                                      病和合并电解质紊乱与VPA血药浓度超限关联性强;此
                  频率  10.0
                   7.5                                       外,本研究通过对比三分类和二分类模型的AUC值,发
                   5.0
                   2.5                                       现2类模型性能存在较大差异的主要原因为超限组样本
                    0
                      0.64  0.65  0.66  0.67  0.68  0.69  0.70  0.70  0.72  量少(仅占样本总数的 5.76%),超限组与其他 2 组数据
                                  准确率
                                                             分布差异较大。
         图2 三分类模型Random Forest方法敏感性分析的准
                                                                 尽管本研究中的模型展现出了较好的分类效果,但
               确率分布
                                                             仍存在若干局限性:(1)本研究采用的数据样本量较小,
          3 讨论                                               原因在于所选医院运行时间不足5年,且纳入的数据不
              本研究采用综合性医院的真实世界数据,运用12种                        足2年,导致实际有效数据积累时间较短,这对模型性能
          机器学习方法构建了用于预测 VPA 血药浓度的三分类                         的提升产生了不利影响。(2)由于数据集源自综合性医
          和二分类模型。在三分类模型中,Random Forest方法表                    院的实际诊疗流程,VPA血药浓度超限的样本在总体数


          中国药房  2025年第36卷第11期                                              China Pharmacy  2025 Vol. 36  No. 11    · 1403 ·
   120   121   122   123   124   125   126   127   128   129   130