Page 125 - 《中国药房》2025年15期
P. 125
表2 两组患者入院治疗措施比较结果 PRAUC 值(0.87)、准确度(0.74)、召回率(0.75)最高,精
变量 变量分类 有效组(n=285) 无效组(n=70) χ /Z P 确率(0.73)、灵敏度(0.77)也较高,说明该模型优于其他
2
抗抑郁药物/例(%) 3.02 0.22 模型。各模型的 ROCAUC 值与 PRAUC 值见图 2,可见
文拉法辛 178(62.46) 51(72.86) RF 模型优于其他模型;各模型的校准曲线见图 3,可见
度洛西汀 91(31.93) 15(21.43)
米那普仑 16(5.61) 4(5.71) XGBoost 模型的预测概率接近实际预测概率(图中虚
合用抗精神病药物/例(%) 1.34 0.72 线),其次为 RF 模型;各模型的决策曲线结果见图 4,可
无 16(5.61) 2(2.86) 见 RF 曲线接近右上角且高于 Treat All 曲线,说明 RF 模
喹硫平 166(58.25) 39(55.71)
奥氮平 88(30.88) 25(35.71) 型更具有临床效用。综合以上结果可得,RF 模型在多
阿立哌唑 15(5.26) 4(5.71) 个关键性能指标上表现最佳,故选定 RF 模型为最优
合用改善睡眠药物/例(%) 3.21 0.66 模型。
无 11(3.86) 2(2.86) 表3 模型超参数优化结果
劳拉西泮 199(69.82) 53(75.71)
阿普唑仑 15(5.26) 3(4.29) 模型 超参数 最优超参数值 模型 超参数 最优超参数值
奥沙西泮 6(2.11) 3(4.29) KNN neighbors 35 min_n 52
唑吡坦 37(12.98) 5(7.14) LightGBM mtry 3 XGBoost mtry 9
右佐匹克隆 17(5.96) 4(5.71) trees 1 857 min_n 4
合用抗焦虑药物/例(%) 5.2 0.04 tree_depth 7 tree_depth 12
无 168(58.95) 31(44.29) RF mtry 2 SVM cost 31
坦度螺酮 108(37.89) 35(50.00) trees 417
丁螺环酮 9(3.16) 4(5.71) 表4 模型性能评估结果
合用心境稳定剂/例(%) 0.38 1.00
无 240(84.21) 59(84.29) 模型 准确度 精确率 灵敏度 召回率 ROCAUC PRAUC
碳酸锂 9(3.16) 2(2.86) KNN 0.72 0.69 0.78 0.73 0.79 0.81
丙戊酸钠 34(11.93) 8(11.43) LightGBM 0.69 0.72 0.63 0.67 0.77 0.82
拉莫三嗪 2(0.70) 1(1.43) RF 0.74 0.73 0.77 0.75 0.85 0.87
针灸治疗/例(%) 0.01 1.00 XGBoost 0.72 0.78 0.62 0.69 0.80 0.83
否 263(92.28) 64(91.43) SVM 0.73 0.72 0.77 0.74 0.79 0.81
是 22(7.72) 6(8.57) 1.0 1.0
合用舒肝解郁胶囊/例(%) 0.04 0.84
0.8 0.8
否 269(94.39) 65(92.86)
是 16(5.61) 5(7.14) 0.6 0.6
心理治疗[M(P 25,P 75)]/次 0(0,1.00) 0(0,1.00) -0.43 0.67 灵敏度 0.4 KNN ROCAUC=0.792 精确率 0.4 KNN PRAUC=0.805
LightGBM ROCAUC=0.771 LightGBM PRAUC=0.821
自由度 自由度
0.2 RF ROCAUC=0.847 0.2 RF PRAUC=0.865
57 56 53 49 34 19 3 57 56 55 51 41 23 7 XGBoost ROCAUC=0.796 XGBoost PRAUC=0.833
2 1.5 0 SVM ROCAUC=0.785 0 SVM PRAUC=0.809
0 0.2 0.4 0.6 0.8 1.0 0 0.2 0.4 0.6 0.8 1.0
1.4
0 1-特异度 召回率
B. PR
特征系数 -2 均方误差 1.3 图2 机器学习模型的受试者工作特征曲线与PR
A.受试者工作特征曲线
1.2
-4 1.1 1.0
-6 1.0
0.8
-9 -8 -7 -6 -5 -4 -3 -9 -8 -7 -6 -5 -4 -3
lgλ lgλ 0.6
A.惩罚项特征系数随lgλ的变 B.均方误差随lgλ的变化 实际概率
化情况 情况 0.4 KNN
注:图1A中52个惩罚项特征变量系数逐渐压缩为0;图1B中十折 LightGBM
RF
0.2 XGBoost
交叉验证过程中均方误差随lgλ变化以确定最佳λ,左侧虚线λ值 SVM
(lambda.1se)为0.051,右侧虚线最小λ值(lambda.min)为0.031。 0
0 0.2 0.4 0.6 0.8 1.0
图1 LASSO回归变量筛选过程 预测概率
为“坦度螺酮”的编码为1,为“丁螺环酮”的编码为2;首 图3 机器学习模型的校准曲线
次发病为“是”的编码为1,为“否”的编码为2;饮酒史为 2.4 模型解释结果
“有”的编码为1,为“无”的编码为2。 使用SHAP方法对最优预测模型RF进行解释,可通
基于特征变量选择结果得到的 5 个变量构建了 5 过 SHAP 值了解每个特征变量对模型预测结果的贡献
个机器学习模型,包括 KNN、SVM、RF、LightGBM 和 程度,结果见图5、图6。从图5、图6可知,5个特征变量
XGBoost 模型。用训练集构建预测模型并进行模型超 中,HAMA 评分对模型预测的贡献最大且呈现负向影
参数优化,结果见表 3;用验证集评估各模型性能,结果 响,随后的贡献程度排序依次为BUN、合用抗焦虑药物、
见表 4。由表 4 可知,RF 模型的 ROCAUC 值(0.85)、 首次发病、饮酒史。
中国药房 2025年第36卷第15期 China Pharmacy 2025 Vol. 36 No. 15 · 1939 ·

