Page 124 - 《中国药房》2025年15期

P. 124

回归分析是一种通过引入 L1 正则化，将不重要特征变 70 例，抗抑郁治疗有效率为 80.28%。两组患者的部分
量的惩罚项系数压缩为0来选择特征和降维，以筛选贡基线资料信息见表 1，入院治疗措施见表 2。由表 1 可
献大的特征和消除冗余特征的方法。知，有效组与无效组患者在 BUN、首次发病、HAMA 评
[10]
1.2.5 模型构建与性能评估分上的差异有统计学意义（P＜0.05）。由表2可知，住院
本研究运用 R 4.2.1 软件中 tidymodels 包构建模型，患者多采用联合治疗方式，有效组与无效组患者在合用
将LASSO回归分析筛选得到的预测特征变量纳入模型抗焦虑药物上的差异有统计学意义（P＜0.05）；SNRI 类
构建。将数据集按7∶3的采样比例划分为训练集与验证药物中使用频率最高的为文拉法辛（64.51%）；联合用药
集，其中训练集用于模型拟合与超参数调整，具体操作方案中，常用药物为抗精神病药物（94.93%）、改善睡眠
为：（1）构建 5 种机器学习模型，包括支持向量机（sup‐ 药物（96.34%）和抗焦虑药物（43.94%）。
port vector machine，SVM）、k 近邻（k-nearest neighbor，表1 两组患者的部分基线资料信息比较结果
KNN）、随机森林（random forest，RF）、轻量级梯度提升变量变量分类有效组（n＝285）无效组（n＝70） χ /Z/t P
2
机（lightweight gradient boosting machine，LightGBM）和性别/例（%） 0.05 0.82
男 63（22.11） 17（24.29）
极端梯度提升（extreme gradient boosting，XGBoost）模
女 222（77.89） 53（75.71）
型。（2）使用五折交叉验证与贝叶斯优化算法调整超参年龄（x±s）/岁 44.00±15.00 45.50±14.75 －0.18 0.86
数与优化模型。贝叶斯优化算法在尝试下一组超参数职业性质/例（%） 0.01 0.94
时，能通过分析以往的训练和评估结果，来指导当前超雇佣 183（64.21） 44（62.86）
未雇佣 102（35.79） 26（37.14）
参数的调整，以实现模型性能的动态更新和优化，在提婚姻状况/例（%） 3.07 0.39
[11]
高搜索效率和精度方面较网格搜索更具有优势。在未婚 30（10.53） 6（8.57）
超参数调整过程中，以模型的受试者工作特征曲线下面已婚 236（82.81） 55（78.57）
离婚 4（1.40） 2（2.86）
积（area under the receiver operating characteristic curve，
丧偶 15（5.26） 7（10.00）
ROCAUC）值作为评价指标，通过最大化的ROCAUC值学历/例（%） 0.21 0.64
来确定最优超参数组合。验证集用于评估训练好的模大专以下 107（37.54） 29（41.43）
大专及大专以上 178（62.46） 41（58.57）
型性能，以 ROCAUC 值、精确率-召回率曲线下面积
吸烟史/例（%） 0.31 0.58
（area under the precision-recall curve，PRAUC）值、准确是 24（8.42） 8（11.43）
度、灵敏度、精确率、召回率作为预测模型的性能评价指否 261（91.58） 62（88.57）
标。此外，本研究还绘制了受试者工作特征曲线、精确饮酒史/例（%） 2.11 0.19
是 22（7.72） 2（2.86）
率-召回率曲线（precision-recall curve，PR）、校准曲线与
否 263（92.28） 68（97.14）
决策曲线（decision curve analysis，DCA），以进一步分析 BUN[M（P 25，P 75）]/（mmol/L） 4.23（3.55，5.02） 4.06（3.39，5.26）－0.26 0.03
2
和展示预测模型在实际临床应用中的效用。 BMI[M（P 25，P 75）]/（kg/m） 24.75（22.02，27.73） 24.22（21.72，27.80）－0.64 0.52
首次发病/例（%） 4.95 0.02
1.2.6 模型解释
是 239（83.86） 50（71.43）
采用夏普利加性解释（Shapley additive explana‐ 否 46（16.14） 20（28.57）
tions，SHAP）方法来解释性能最优的模型。SHAP 是一住院天数[M（P 25，P 75）]/d 10.00（8.00，11.00） 9.00（7.00，11.00）－1.69 0.91
抑郁症分型/例（%） 0.43 0.51
个解释机器学习模型的统一框架，根据博弈论估计每个
中度抑郁 262（91.93） 62（88.57）
特征的贡献，以此来衡量每个特征对预测结果的影重度抑郁 23（8.07） 8（11.43）
[12]
响。通过计算训练集中每位患者样本数据的 SHAP HAMD-24评分（x±s）/分 25.25±4.60 24.86±4.69 －0.81 0.42
值，可以深入了解每个指标对预测模型的贡献。 HAMA评分（x±s）/分 20.53±4.82 19.07±5.25 －2.31 0.02
1.2.7 统计分析 2.2 特征变量选择结果
运用 R 4.2.1 软件进行统计分析。计量资料通过峰使用 LASSO 回归筛选与疗效相关的特征变量，采
度和偏度检验，以确定是否遵循正态分布，若符合正态用十折交叉验证方法进行迭代分析，变量系数的变化如
分布则用x±s描述，组间比较采用独立样本t检验；若非图1所示。为避免重要因素丢失与过度拟合发生，本研
正态分布则用 M（P25，P75 ）描述，组间比较采用 Mann- 究选择最小λ值（lambda.min）为0.031；将对结局影响不
Whitney U 检验。计数资料采用例数或占比（%）描述，重要的特征变量惩罚项系数逐渐压缩为0，最终从57个
2
组间比较采用χ 检验。检验水准α＝0.05。变量中筛选出与疗效密切相关的5个变量：HAMA评分
2 结果（β＝－0.017）、合用抗焦虑药物（β＝0.106）、饮酒史（β＝
2.1 基线信息－0.025）、BUN（β＝0.000 1）、首次发病（β＝0.179）。
本研究收集到符合纳入标准的中重度抑郁症住院 2.3 模型构建与性能评估结果
患者共 355 例，其中女性占 77.46%（n＝275）；所有患者本研究根据 LASSO 回归筛选的结果，对分类变量
平均年龄为44岁。有效组患者有285例，无效组患者有进行编码，规则为：合用抗焦虑药物为“无”的编码为 0，

· 1938 · China Pharmacy 2025 Vol. 36 No. 15 中国药房 2025年第36卷第15期

119 120 121 122 123 124 125 126 127 128 129