Page 124 - 《中国药房》2025年15期
P. 124

回归分析是一种通过引入 L1 正则化,将不重要特征变                          70 例,抗抑郁治疗有效率为 80.28%。两组患者的部分
          量的惩罚项系数压缩为0来选择特征和降维,以筛选贡                            基线资料信息见表 1,入院治疗措施见表 2。由表 1 可
          献大的特征和消除冗余特征的方法 。                                   知,有效组与无效组患者在 BUN、首次发病、HAMA 评
                                        [10]
          1.2.5 模型构建与性能评估                                     分上的差异有统计学意义(P<0.05)。由表2可知,住院
              本研究运用 R 4.2.1 软件中 tidymodels 包构建模型,             患者多采用联合治疗方式,有效组与无效组患者在合用
          将LASSO回归分析筛选得到的预测特征变量纳入模型                           抗焦虑药物上的差异有统计学意义(P<0.05);SNRI 类
          构建。将数据集按7∶3的采样比例划分为训练集与验证                           药物中使用频率最高的为文拉法辛(64.51%);联合用药
          集,其中训练集用于模型拟合与超参数调整,具体操作                            方案中,常用药物为抗精神病药物(94.93%)、改善睡眠
          为:(1)构建 5 种机器学习模型,包括支持向量机(sup‐                      药物(96.34%)和抗焦虑药物(43.94%)。
          port vector machine,SVM)、k 近邻(k-nearest neighbor,       表1 两组患者的部分基线资料信息比较结果
          KNN)、随机森林(random forest,RF)、轻量级梯度提升                 变量             变量分类   有效组(n=285)  无效组(n=70)  χ /Z/t  P
                                                                                                        2
          机(lightweight gradient boosting machine,LightGBM)和  性别/例(%)                                   0.05 0.82
                                                                              男      63(22.11)  17(24.29)
          极端梯度提升(extreme gradient boosting,XGBoost)模
                                                                              女      222(77.89)  53(75.71)
          型。(2)使用五折交叉验证与贝叶斯优化算法调整超参                           年龄(x±s)/岁             44.00±15.00  45.50±14.75  -0.18 0.86
          数与优化模型。贝叶斯优化算法在尝试下一组超参数                             职业性质/例(%)                                 0.01 0.94
          时,能通过分析以往的训练和评估结果,来指导当前超                                            雇佣     183(64.21)  44(62.86)
                                                                             未雇佣     102(35.79)  26(37.14)
          参数的调整,以实现模型性能的动态更新和优化,在提                            婚姻状况/例(%)                                 3.07 0.39
                                                    [11]
          高搜索效率和精度方面较网格搜索更具有优势 。在                                             未婚     30(10.53)  6(8.57)
          超参数调整过程中,以模型的受试者工作特征曲线下面                                            已婚     236(82.81)  55(78.57)
                                                                              离婚     4(1.40)   2(2.86)
          积(area under the receiver operating characteristic curve,
                                                                              丧偶     15(5.26)  7(10.00)
          ROCAUC)值作为评价指标,通过最大化的ROCAUC值                        学历/例(%)                                   0.21 0.64
          来确定最优超参数组合。验证集用于评估训练好的模                                            大专以下    107(37.54)  29(41.43)
                                                                           大专及大专以上   178(62.46)  41(58.57)
          型性能,以 ROCAUC 值、精确率-召回率曲线下面积
                                                              吸烟史/例(%)                                  0.31 0.58
         (area under the precision-recall curve,PRAUC)值、准确                    是      24(8.42)  8(11.43)
          度、灵敏度、精确率、召回率作为预测模型的性能评价指                                           否      261(91.58)  62(88.57)
          标。此外,本研究还绘制了受试者工作特征曲线、精确                            饮酒史/例(%)                                  2.11 0.19
                                                                              是      22(7.72)  2(2.86)
          率-召回率曲线(precision-recall curve,PR)、校准曲线与
                                                                              否      263(92.28)  68(97.14)
          决策曲线(decision curve analysis,DCA),以进一步分析            BUN[M(P 25,P 75)]/(mmol/L)  4.23(3.55,5.02)  4.06(3.39,5.26)  -0.26 0.03
                                                                        2
          和展示预测模型在实际临床应用中的效用。                                 BMI[M(P 25,P 75)]/(kg/m)  24.75(22.02,27.73) 24.22(21.72,27.80) -0.64 0.52
                                                              首次发病/例(%)                                 4.95 0.02
          1.2.6 模型解释
                                                                              是      239(83.86)  50(71.43)
              采 用 夏 普 利 加 性 解 释(Shapley  additive  explana‐                   否      46(16.14)  20(28.57)
          tions,SHAP)方法来解释性能最优的模型。SHAP 是一                     住院天数[M(P 25,P 75)]/d  10.00(8.00,11.00)  9.00(7.00,11.00)  -1.69 0.91
                                                              抑郁症分型/例(%)                                0.43 0.51
          个解释机器学习模型的统一框架,根据博弈论估计每个
                                                                             中度抑郁    262(91.93)  62(88.57)
          特征的贡献,以此来衡量每个特征对预测结果的影                                             重度抑郁    23(8.07)  8(11.43)
            [12]
          响 。通过计算训练集中每位患者样本数据的 SHAP                           HAMD-24评分(x±s)/分       25.25±4.60  24.86±4.69  -0.81 0.42
          值,可以深入了解每个指标对预测模型的贡献。                               HAMA评分(x±s)/分          20.53±4.82  19.07±5.25  -2.31 0.02
          1.2.7 统计分析                                          2.2 特征变量选择结果
              运用 R 4.2.1 软件进行统计分析。计量资料通过峰                         使用 LASSO 回归筛选与疗效相关的特征变量,采
          度和偏度检验,以确定是否遵循正态分布,若符合正态                            用十折交叉验证方法进行迭代分析,变量系数的变化如
          分布则用x±s描述,组间比较采用独立样本t检验;若非                          图1所示。为避免重要因素丢失与过度拟合发生,本研
          正态分布则用 M(P25,P75 )描述,组间比较采用 Mann-                   究选择最小λ值(lambda.min)为0.031;将对结局影响不
          Whitney U 检验。计数资料采用例数或占比(%)描述,                      重要的特征变量惩罚项系数逐渐压缩为0,最终从57个
                       2
          组间比较采用χ 检验。检验水准α=0.05。                              变量中筛选出与疗效密切相关的5个变量:HAMA评分
          2 结果                                               (β=-0.017)、合用抗焦虑药物(β=0.106)、饮酒史(β=
          2.1 基线信息                                            -0.025)、BUN(β=0.000 1)、首次发病(β=0.179)。
              本研究收集到符合纳入标准的中重度抑郁症住院                           2.3 模型构建与性能评估结果
          患者共 355 例,其中女性占 77.46%(n=275);所有患者                      本研究根据 LASSO 回归筛选的结果,对分类变量
          平均年龄为44岁。有效组患者有285例,无效组患者有                          进行编码,规则为:合用抗焦虑药物为“无”的编码为 0,


          · 1938 ·    China Pharmacy  2025 Vol. 36  No. 15                            中国药房  2025年第36卷第15期
   119   120   121   122   123   124   125   126   127   128   129