Page 107 - 《中国药房》2025年19期
P. 107

of  vancomycin  trough  blood  concentrations;  however,  their  performance  in  the  low  to  moderate  concentration  categories  still
          requires improvement.
          KEYWORDS    machine learning; vancomycin; blood concentration; MIMIC-Ⅳ database; classification prediction



              万古霉素作为糖肽类抗菌药物的代表,是治疗耐药                         kg者;(3)数据记录缺失量>70%者。
          革兰氏阳性菌感染的核心药物,但因其存在治疗窗窄及                           1.2 方法
                                                [1]
          个体间药代动力学差异,临床应用面临挑战 。传统的                           1.2.1 数据预处理
          治疗药物监测(therapeutic drug monitoring,TDM)依赖              基于 MIMIC-Ⅳ数据库资料,采用 R 4.3.3 软件构建
                                                   [2]
          经验性剂量调整与滞后的监测反馈,存在局限性 ,临床                          数据分析框架,通过 Apache Parquet 列式存储格式高效
          亟待探索新型预测模型以优化决策流程。机器学习可                            管理临床数据,利用arrow包实现快速数据读取和处理。
          对药代动力学中的复杂非线性关系进行建模,捕捉药物                           本研究整合了患者人口统计学特征、实验室检查结果及
                      [3]
          浓度变化规律 。目前已有多种机器学习算法被应用于                           药物治疗记录等多维信息,所有数据转换和处理均在ti‐
          TDM 预测,包括逻辑回归(logistic regression,LR)、随机           dyverse 生态系统中完成。研究对象严格按照纳排标准
          森林(random forest,RF)、极端梯度提升(extreme gradient       筛选,以减少噪声干扰。数据提取过程通过 dbplyr 包
          boosting,XGBoost)、支 持 向 量 机(support  vector  ma‐   实现。
          chine,SVM)和K近邻(K-nearest neighbors,KNN)等,在             本研究提取的核心变量包括:(1)人口统计学特
          预测精度与个体化给药支持方面表现优秀                  [4―5] 。随着机     征——年龄、性别、体重;(2)实验室指标——肝功能、肾
          器深度学习的发展,表格先验数据拟合网络(tabular                        功能、营养状态、血液学、代谢及凝血功能等;(3)药物治疗
          prior-data fitted network,TabPFN)作为一种基于生成式         参数——万古霉素给药方案、谷浓度监测值(μg/mL)。
          Transformer的表格基础模型,在小样本场景下展现出较                     1.2.2 异常值处理
                          [6]
          大的临床应用潜力 。                                             为提升数据质量并降低极端值对模型性能的潜在
              重症监护医学信息集市(Medical Information Mart            偏倚,本研究采用基于四分位距(interquartile range,
                                                                                                    [8]
          for Intensive Care,MIMIC)是一个大型、开源数据库,              IQR)的方法识别并处理关键变量中的异常值 。异常值
          MIMIC-Ⅳ是其最新版本,覆盖超 65 000 例重症医学病                    定义为小于 Q1-1.5×IQR 或大于 Q3+1.5×IQR 的数据
          房(intensive care unit,ICU)患者的人口统计学特征、实             点,其中 Q1 和 Q3 分别为第一和第三四分位数,IQR=
          验室指标、药物治疗参数等多维信息,为医疗数据分析                           Q3-Q1。识别出的异常值被统一标记为缺失值。
          提供了丰富资源,便于研究者提取关键特征,以探索临                           1.2.3 缺失值处理
          床数据关联,构建个性化预测模型,指导精准用药 。本                              计算各个特征的缺失率,删除缺失率>30% 的变
                                                    [7]
          研究通过机器学习方法,基于MIMIC-Ⅳ数据库的数据,                        量,其余变量采用多重插补法进行缺失值插补,设置插
          探索万古霉素血药谷浓度与患者病理生理状态之间的                            补数据集数量为 1(m=1),最大迭代次数为 5(maxit=
          关系,构建分类预测模型,旨在为个体化用药提供支持,                          5),插补方法根据变量类型自动选择(method=default
          并评估MIMIC-Ⅳ数据库在TDM中的应用价值。                           method)。
          1 资料与方法                                            1.2.4 特征工程
          1.1 研究对象                                               本研究采用两阶段特征选择方法,分别通过相关性
              本 研 究 为 一 项 回 顾 性 研 究 ,所 有 数 据 来 源 于           分析和 Boruta 特征选择算法(Boruta feature selection al‐
          MIMIC-Ⅳ数据库,根据《健康保险携带和责任法案》进                        gorithm,简称 Boruta 算法)对特征进行筛选与优化。首
          行去标识化处理。数据库的访问遵循PhysioNet认证的                       先,采用 Pearson 相关系数(r)评估各数值型特征间的线
          健康数据许可 1.5.0 的要求,需完成以下流程:(1)通过                     性关联强度,使用 pheatmap 包绘制特征相关性热力图。
          PhysioNet 官方研究人员身份验证和专业资质审核;(2)                    相关性强度界定:|r|<0.3为弱相关,0.3≤|r|<0.7为中等
          完成 CITI Program 规定的“Data or Specimens Only Re‐     相关,|r|≥0.7为强相关,并记录r的正负号以反映变量间
          search”伦理培训课程(ID:50610476),通过考核;(3)签               的变化方向(正相关或负相关)。其次,采用Boruta算法
          署PhysioNet数据使用协议,承诺遵守数据安全规范,包                      进行特征选择,识别对模型预测具有显著贡献的特征。
          括禁止重新识别患者信息、限制数据传播范围及安全存                           通过比较原始特征与随机生成的影子特征的重要性得
          储要求。由于本研究使用已完全去标识化的回顾性数                            分,判断其统计显著性:若某特征的重要性得分持续高
          据,故豁免知情同意及额外的伦理审批。                                 于所有影子特征的最大值,则被标记为“confirmed im‐
              本研究的纳入标准包括:(1)入住 ICU 且年龄≥18                    portant”;若低于所有影子特征的最小值,则标记为“un‐
          岁;(2)接受静脉输注万古霉素治疗;(3)进行过万古霉                        important”;其余为“tentative important”。最终,按重要
          素血药谷浓度监测。本研究的排除标准包括:(1)接受                          性得分均值排序,筛选出对模型预测贡献最大的关键特
                                                                                          [9]
          透析治疗或肾脏替代治疗者;(2)体重<40 kg 或>150                     征,构建精简且高效的建模特征集 。

          中国药房  2025年第36卷第19期                                              China Pharmacy  2025 Vol. 36  No. 19    · 2449 ·
   102   103   104   105   106   107   108   109   110   111   112