Page 123 - 《中国药房》2025年11期
P. 123
1.4 模型特征的选取 2 结果
考虑到三分类模型和二分类模型所采用的数据集 2.1 2类模型的数据基线特征比较
大小并不相同,本研究采用 XGBoost 算法(XGBoost 特 2 类模型采用的数据集的基线特征见表 1。结果显
征筛选具有较高的稳健性)对特征重要性进行评分,以 示,在三分类模型中,仅给药途径(口服)在训练集和测
对这2种分类方法的模型特征变量进行排序和选取。在 试集中差异具有统计学意义(P<0.05),其余指标差异
得到各模型的特征排序后,从排名前10位的特征开始训 均无统计学意义(P>0.05);在二分类模型中,性别
练模型,观测模型准确率,并依次递增特征数量,直至分 (男)、合并使用其他抗癫痫药、合并使用蛋白酶抑制剂
类模型的准确率基本收敛到稳定值,将收敛时的特征选 在训练集和测试集中差异具有统计学意义(P<0.05),
取为模型特征。 其余指标差异均无统计学意义(P>0.05)。
1.5 模型构建与性能评价 2.2 2类模型的特征评分及特征选取结果
结合上述XGBoost方法选取出的特征,分别构建针
采用XGBoost排序的特征进行模型训练,当特征数
对 VPA 血药浓度预测的三分类以及二分类模型。本研
量递增到16个时,各分类模型的准确率基本收敛到稳定
究采用随机森林(Random Forest)、梯度提升决策树
值,此时各分类模型前16个特征的重要性评分之和已经
(Gradient Boosting Decision Tree,GBDT)、自适应提升
超过了97%。因此,本研究采用前16个特征进行模型训
算法(Adaptive Boosting,AdaBoost)等 12 种常见的机器
练,其详细信息见表 2。根据表 2 可知:(1)在三分类和
学习算法构建预测模型。为了更加公平地比较各种算
二分类模型的前 16 个特征中,相同特征有 15 个。(2)合
法的性能,各算法均使用XGBoost算法选择的相同特征
并肾病和合并电解质紊乱对2个模型的影响差异较大。
子集进行训练。训练过程的调优过程为:在过采样后的
其中,合并肾病在三分类模型中的 XGBoost 评分排第 1
训练数据集合内,对各模型的参数进行超参数组合,并
位,但在二分类模型中的评分仅排第15位;合并电解质
进行超参数空间的有限穷举网格搜索,最后利用5折交
紊乱在三分类模型中的 XGBoost 评分排第 3 位,但未出
叉验证法筛选最优超参数组合。
现在二分类模型中。(3)结合2类模型的数据基线特征比
本研究通过准确率、F1分数以及受试者工作特征曲
较结果和表2可以看出,尽管性别(男)这一特征在训练
线 下 面 积(area under the working characteristic curve,
集与测试集间存在分布差异(P<0.05),但其在XGBoost
AUC)3个指标对模型的性能进行比较,并挑选出表现最
模型特征重要性排名中位列第4位(二分类模型中),表
佳的模型进行深入分析。其中,准确率反映了模型正确
明该特征与VPA血药浓度关联性较强,仍具有潜在预测
分类的样本占总样本的比例,但当样本分布不均时,其
价值,故保留用于模型训练。
可能会产生误导性结果;F1分数是精确率和召回率的调
2.3 2类模型的性能分析结果
[13]
和平均值,能够更加全面地评价模型的性能 ;AUC 能
12 种机器学习方法在不同分类模型中的性能分析
够综合反映模型的整体分类能力,并具有区分正、负样
结果见表3。
本的能力以及模型的泛化能力。为了进一步提升模型
2.3.1 三分类模型中的结果
的稳健性,本研究还采用机器学习领域常用的5倍交叉
验证法来验证这12种机器学习方法的性能。此外,本研 由表 3 可知,在三分类模型中,以 Random Forest 方
法的表现最佳,其训练集中5倍交叉验证的性能指标为:
究对三分类和二分类模型的最优方法分别进行了敏感
性分析,即分析模型对输入数据微小变动的稳健性。模 准确率 0.716 3、F1 分数 0.714 1;测试集中的性能指标
型敏感性分析的过程为:通过在测试集上叠加高斯噪声 为:准确率 0.705 0、F1 分数为 0.704 0。值得注意的是,
(强度为特征标准差的0.005倍)生成扰动数据;重复100 在三分类模型中,各机器学习方法的测试集性能普遍低
次迭代后分别用扰动数据预测模型,统计每次迭代的预 于训练集,这暗示了数据分布的不一致性以及存在过拟
测准确率;最后计算所有准确率的平均值和标准差以量 合的可能性。图 1 进一步展示了 Random Forest 方法在
化模型预测的稳定性。 三分类模型中的学习曲线。从图1可以看出,训练集的
1.6 统计学方法 准确率始终接近于 1,即训练集的拟合程度较高;然而,
采用 Python 进行数据分析。采用 K-S 检验对数据 当训练集样本数<500 时,其准确率基本不超过 0.5;随
特征的连续变量进行正态性检验,发现数据均不符合正 着训练集样本数的增加,其交叉验证准确率最终稳定在
态分布,故采用M(P25,P75 )表示,不同分类模型中2个数 0.72左右,与训练准确率差异较大。
据集之间的差异采用秩和检验进行比较;计数资料用例 此外,Random Forest 方法在三分类模型中的 AUC
数或百分比(%)表示,不同分类模型中 2 个数据集之间 计算结果显示:(1)不足组 vs. (正常组+超限组),
的差异采用卡方检验进行比较。 AUC=0.24,表明模型对“不足”类别与正常组+超限组
中国药房 2025年第36卷第11期 China Pharmacy 2025 Vol. 36 No. 11 · 1401 ·