Page 124 - 《中国药房》2025年15期
P. 124
回归分析是一种通过引入 L1 正则化,将不重要特征变 70 例,抗抑郁治疗有效率为 80.28%。两组患者的部分
量的惩罚项系数压缩为0来选择特征和降维,以筛选贡 基线资料信息见表 1,入院治疗措施见表 2。由表 1 可
献大的特征和消除冗余特征的方法 。 知,有效组与无效组患者在 BUN、首次发病、HAMA 评
[10]
1.2.5 模型构建与性能评估 分上的差异有统计学意义(P<0.05)。由表2可知,住院
本研究运用 R 4.2.1 软件中 tidymodels 包构建模型, 患者多采用联合治疗方式,有效组与无效组患者在合用
将LASSO回归分析筛选得到的预测特征变量纳入模型 抗焦虑药物上的差异有统计学意义(P<0.05);SNRI 类
构建。将数据集按7∶3的采样比例划分为训练集与验证 药物中使用频率最高的为文拉法辛(64.51%);联合用药
集,其中训练集用于模型拟合与超参数调整,具体操作 方案中,常用药物为抗精神病药物(94.93%)、改善睡眠
为:(1)构建 5 种机器学习模型,包括支持向量机(sup‐ 药物(96.34%)和抗焦虑药物(43.94%)。
port vector machine,SVM)、k 近邻(k-nearest neighbor, 表1 两组患者的部分基线资料信息比较结果
KNN)、随机森林(random forest,RF)、轻量级梯度提升 变量 变量分类 有效组(n=285) 无效组(n=70) χ /Z/t P
2
机(lightweight gradient boosting machine,LightGBM)和 性别/例(%) 0.05 0.82
男 63(22.11) 17(24.29)
极端梯度提升(extreme gradient boosting,XGBoost)模
女 222(77.89) 53(75.71)
型。(2)使用五折交叉验证与贝叶斯优化算法调整超参 年龄(x±s)/岁 44.00±15.00 45.50±14.75 -0.18 0.86
数与优化模型。贝叶斯优化算法在尝试下一组超参数 职业性质/例(%) 0.01 0.94
时,能通过分析以往的训练和评估结果,来指导当前超 雇佣 183(64.21) 44(62.86)
未雇佣 102(35.79) 26(37.14)
参数的调整,以实现模型性能的动态更新和优化,在提 婚姻状况/例(%) 3.07 0.39
[11]
高搜索效率和精度方面较网格搜索更具有优势 。在 未婚 30(10.53) 6(8.57)
超参数调整过程中,以模型的受试者工作特征曲线下面 已婚 236(82.81) 55(78.57)
离婚 4(1.40) 2(2.86)
积(area under the receiver operating characteristic curve,
丧偶 15(5.26) 7(10.00)
ROCAUC)值作为评价指标,通过最大化的ROCAUC值 学历/例(%) 0.21 0.64
来确定最优超参数组合。验证集用于评估训练好的模 大专以下 107(37.54) 29(41.43)
大专及大专以上 178(62.46) 41(58.57)
型性能,以 ROCAUC 值、精确率-召回率曲线下面积
吸烟史/例(%) 0.31 0.58
(area under the precision-recall curve,PRAUC)值、准确 是 24(8.42) 8(11.43)
度、灵敏度、精确率、召回率作为预测模型的性能评价指 否 261(91.58) 62(88.57)
标。此外,本研究还绘制了受试者工作特征曲线、精确 饮酒史/例(%) 2.11 0.19
是 22(7.72) 2(2.86)
率-召回率曲线(precision-recall curve,PR)、校准曲线与
否 263(92.28) 68(97.14)
决策曲线(decision curve analysis,DCA),以进一步分析 BUN[M(P 25,P 75)]/(mmol/L) 4.23(3.55,5.02) 4.06(3.39,5.26) -0.26 0.03
2
和展示预测模型在实际临床应用中的效用。 BMI[M(P 25,P 75)]/(kg/m) 24.75(22.02,27.73) 24.22(21.72,27.80) -0.64 0.52
首次发病/例(%) 4.95 0.02
1.2.6 模型解释
是 239(83.86) 50(71.43)
采 用 夏 普 利 加 性 解 释(Shapley additive explana‐ 否 46(16.14) 20(28.57)
tions,SHAP)方法来解释性能最优的模型。SHAP 是一 住院天数[M(P 25,P 75)]/d 10.00(8.00,11.00) 9.00(7.00,11.00) -1.69 0.91
抑郁症分型/例(%) 0.43 0.51
个解释机器学习模型的统一框架,根据博弈论估计每个
中度抑郁 262(91.93) 62(88.57)
特征的贡献,以此来衡量每个特征对预测结果的影 重度抑郁 23(8.07) 8(11.43)
[12]
响 。通过计算训练集中每位患者样本数据的 SHAP HAMD-24评分(x±s)/分 25.25±4.60 24.86±4.69 -0.81 0.42
值,可以深入了解每个指标对预测模型的贡献。 HAMA评分(x±s)/分 20.53±4.82 19.07±5.25 -2.31 0.02
1.2.7 统计分析 2.2 特征变量选择结果
运用 R 4.2.1 软件进行统计分析。计量资料通过峰 使用 LASSO 回归筛选与疗效相关的特征变量,采
度和偏度检验,以确定是否遵循正态分布,若符合正态 用十折交叉验证方法进行迭代分析,变量系数的变化如
分布则用x±s描述,组间比较采用独立样本t检验;若非 图1所示。为避免重要因素丢失与过度拟合发生,本研
正态分布则用 M(P25,P75 )描述,组间比较采用 Mann- 究选择最小λ值(lambda.min)为0.031;将对结局影响不
Whitney U 检验。计数资料采用例数或占比(%)描述, 重要的特征变量惩罚项系数逐渐压缩为0,最终从57个
2
组间比较采用χ 检验。检验水准α=0.05。 变量中筛选出与疗效密切相关的5个变量:HAMA评分
2 结果 (β=-0.017)、合用抗焦虑药物(β=0.106)、饮酒史(β=
2.1 基线信息 -0.025)、BUN(β=0.000 1)、首次发病(β=0.179)。
本研究收集到符合纳入标准的中重度抑郁症住院 2.3 模型构建与性能评估结果
患者共 355 例,其中女性占 77.46%(n=275);所有患者 本研究根据 LASSO 回归筛选的结果,对分类变量
平均年龄为44岁。有效组患者有285例,无效组患者有 进行编码,规则为:合用抗焦虑药物为“无”的编码为 0,
· 1938 · China Pharmacy 2025 Vol. 36 No. 15 中国药房 2025年第36卷第15期

