Page 123 - 《中国药房》2025年11期
P. 123

1.4 模型特征的选取                                        2 结果
              考虑到三分类模型和二分类模型所采用的数据集                          2.1 2类模型的数据基线特征比较
          大小并不相同,本研究采用 XGBoost 算法(XGBoost 特                      2 类模型采用的数据集的基线特征见表 1。结果显
          征筛选具有较高的稳健性)对特征重要性进行评分,以                           示,在三分类模型中,仅给药途径(口服)在训练集和测
          对这2种分类方法的模型特征变量进行排序和选取。在                           试集中差异具有统计学意义(P<0.05),其余指标差异
          得到各模型的特征排序后,从排名前10位的特征开始训                          均无统计学意义(P>0.05);在二分类模型中,性别
          练模型,观测模型准确率,并依次递增特征数量,直至分                         (男)、合并使用其他抗癫痫药、合并使用蛋白酶抑制剂
          类模型的准确率基本收敛到稳定值,将收敛时的特征选                           在训练集和测试集中差异具有统计学意义(P<0.05),
          取为模型特征。                                            其余指标差异均无统计学意义(P>0.05)。
          1.5 模型构建与性能评价                                      2.2 2类模型的特征评分及特征选取结果
              结合上述XGBoost方法选取出的特征,分别构建针
                                                                 采用XGBoost排序的特征进行模型训练,当特征数
          对 VPA 血药浓度预测的三分类以及二分类模型。本研
                                                             量递增到16个时,各分类模型的准确率基本收敛到稳定
          究采用随机森林(Random Forest)、梯度提升决策树
                                                             值,此时各分类模型前16个特征的重要性评分之和已经
         (Gradient Boosting Decision Tree,GBDT)、自适应提升
                                                             超过了97%。因此,本研究采用前16个特征进行模型训
          算法(Adaptive Boosting,AdaBoost)等 12 种常见的机器
                                                             练,其详细信息见表 2。根据表 2 可知:(1)在三分类和
          学习算法构建预测模型。为了更加公平地比较各种算
                                                             二分类模型的前 16 个特征中,相同特征有 15 个。(2)合
          法的性能,各算法均使用XGBoost算法选择的相同特征
                                                             并肾病和合并电解质紊乱对2个模型的影响差异较大。
          子集进行训练。训练过程的调优过程为:在过采样后的
                                                             其中,合并肾病在三分类模型中的 XGBoost 评分排第 1
          训练数据集合内,对各模型的参数进行超参数组合,并
                                                             位,但在二分类模型中的评分仅排第15位;合并电解质
          进行超参数空间的有限穷举网格搜索,最后利用5折交
                                                             紊乱在三分类模型中的 XGBoost 评分排第 3 位,但未出
          叉验证法筛选最优超参数组合。
                                                             现在二分类模型中。(3)结合2类模型的数据基线特征比
              本研究通过准确率、F1分数以及受试者工作特征曲
                                                             较结果和表2可以看出,尽管性别(男)这一特征在训练
          线 下 面 积(area  under  the  working  characteristic  curve,
                                                             集与测试集间存在分布差异(P<0.05),但其在XGBoost
          AUC)3个指标对模型的性能进行比较,并挑选出表现最
                                                             模型特征重要性排名中位列第4位(二分类模型中),表
          佳的模型进行深入分析。其中,准确率反映了模型正确
                                                             明该特征与VPA血药浓度关联性较强,仍具有潜在预测
          分类的样本占总样本的比例,但当样本分布不均时,其
                                                             价值,故保留用于模型训练。
          可能会产生误导性结果;F1分数是精确率和召回率的调
                                                             2.3 2类模型的性能分析结果
                                                [13]
          和平均值,能够更加全面地评价模型的性能 ;AUC 能
                                                                 12 种机器学习方法在不同分类模型中的性能分析
          够综合反映模型的整体分类能力,并具有区分正、负样
                                                             结果见表3。
          本的能力以及模型的泛化能力。为了进一步提升模型
                                                             2.3.1 三分类模型中的结果
          的稳健性,本研究还采用机器学习领域常用的5倍交叉
          验证法来验证这12种机器学习方法的性能。此外,本研                              由表 3 可知,在三分类模型中,以 Random Forest 方
                                                             法的表现最佳,其训练集中5倍交叉验证的性能指标为:
          究对三分类和二分类模型的最优方法分别进行了敏感
          性分析,即分析模型对输入数据微小变动的稳健性。模                           准确率 0.716 3、F1 分数 0.714 1;测试集中的性能指标
          型敏感性分析的过程为:通过在测试集上叠加高斯噪声                           为:准确率 0.705 0、F1 分数为 0.704 0。值得注意的是,
         (强度为特征标准差的0.005倍)生成扰动数据;重复100                       在三分类模型中,各机器学习方法的测试集性能普遍低
          次迭代后分别用扰动数据预测模型,统计每次迭代的预                           于训练集,这暗示了数据分布的不一致性以及存在过拟
          测准确率;最后计算所有准确率的平均值和标准差以量                           合的可能性。图 1 进一步展示了 Random Forest 方法在
          化模型预测的稳定性。                                         三分类模型中的学习曲线。从图1可以看出,训练集的
          1.6 统计学方法                                          准确率始终接近于 1,即训练集的拟合程度较高;然而,
              采用 Python 进行数据分析。采用 K-S 检验对数据                  当训练集样本数<500 时,其准确率基本不超过 0.5;随
          特征的连续变量进行正态性检验,发现数据均不符合正                           着训练集样本数的增加,其交叉验证准确率最终稳定在
          态分布,故采用M(P25,P75 )表示,不同分类模型中2个数                    0.72左右,与训练准确率差异较大。
          据集之间的差异采用秩和检验进行比较;计数资料用例                               此外,Random Forest 方法在三分类模型中的 AUC
          数或百分比(%)表示,不同分类模型中 2 个数据集之间                        计算结果显示:(1)不足组 vs. (正常组+超限组),
          的差异采用卡方检验进行比较。                                     AUC=0.24,表明模型对“不足”类别与正常组+超限组


          中国药房  2025年第36卷第11期                                              China Pharmacy  2025 Vol. 36  No. 11    · 1401 ·
   118   119   120   121   122   123   124   125   126   127   128