Page 107 - 《中国药房》2025年19期
P. 107
of vancomycin trough blood concentrations; however, their performance in the low to moderate concentration categories still
requires improvement.
KEYWORDS machine learning; vancomycin; blood concentration; MIMIC-Ⅳ database; classification prediction
万古霉素作为糖肽类抗菌药物的代表,是治疗耐药 kg者;(3)数据记录缺失量>70%者。
革兰氏阳性菌感染的核心药物,但因其存在治疗窗窄及 1.2 方法
[1]
个体间药代动力学差异,临床应用面临挑战 。传统的 1.2.1 数据预处理
治疗药物监测(therapeutic drug monitoring,TDM)依赖 基于 MIMIC-Ⅳ数据库资料,采用 R 4.3.3 软件构建
[2]
经验性剂量调整与滞后的监测反馈,存在局限性 ,临床 数据分析框架,通过 Apache Parquet 列式存储格式高效
亟待探索新型预测模型以优化决策流程。机器学习可 管理临床数据,利用arrow包实现快速数据读取和处理。
对药代动力学中的复杂非线性关系进行建模,捕捉药物 本研究整合了患者人口统计学特征、实验室检查结果及
[3]
浓度变化规律 。目前已有多种机器学习算法被应用于 药物治疗记录等多维信息,所有数据转换和处理均在ti‐
TDM 预测,包括逻辑回归(logistic regression,LR)、随机 dyverse 生态系统中完成。研究对象严格按照纳排标准
森林(random forest,RF)、极端梯度提升(extreme gradient 筛选,以减少噪声干扰。数据提取过程通过 dbplyr 包
boosting,XGBoost)、支 持 向 量 机(support vector ma‐ 实现。
chine,SVM)和K近邻(K-nearest neighbors,KNN)等,在 本研究提取的核心变量包括:(1)人口统计学特
预测精度与个体化给药支持方面表现优秀 [4―5] 。随着机 征——年龄、性别、体重;(2)实验室指标——肝功能、肾
器深度学习的发展,表格先验数据拟合网络(tabular 功能、营养状态、血液学、代谢及凝血功能等;(3)药物治疗
prior-data fitted network,TabPFN)作为一种基于生成式 参数——万古霉素给药方案、谷浓度监测值(μg/mL)。
Transformer的表格基础模型,在小样本场景下展现出较 1.2.2 异常值处理
[6]
大的临床应用潜力 。 为提升数据质量并降低极端值对模型性能的潜在
重症监护医学信息集市(Medical Information Mart 偏倚,本研究采用基于四分位距(interquartile range,
[8]
for Intensive Care,MIMIC)是一个大型、开源数据库, IQR)的方法识别并处理关键变量中的异常值 。异常值
MIMIC-Ⅳ是其最新版本,覆盖超 65 000 例重症医学病 定义为小于 Q1-1.5×IQR 或大于 Q3+1.5×IQR 的数据
房(intensive care unit,ICU)患者的人口统计学特征、实 点,其中 Q1 和 Q3 分别为第一和第三四分位数,IQR=
验室指标、药物治疗参数等多维信息,为医疗数据分析 Q3-Q1。识别出的异常值被统一标记为缺失值。
提供了丰富资源,便于研究者提取关键特征,以探索临 1.2.3 缺失值处理
床数据关联,构建个性化预测模型,指导精准用药 。本 计算各个特征的缺失率,删除缺失率>30% 的变
[7]
研究通过机器学习方法,基于MIMIC-Ⅳ数据库的数据, 量,其余变量采用多重插补法进行缺失值插补,设置插
探索万古霉素血药谷浓度与患者病理生理状态之间的 补数据集数量为 1(m=1),最大迭代次数为 5(maxit=
关系,构建分类预测模型,旨在为个体化用药提供支持, 5),插补方法根据变量类型自动选择(method=default
并评估MIMIC-Ⅳ数据库在TDM中的应用价值。 method)。
1 资料与方法 1.2.4 特征工程
1.1 研究对象 本研究采用两阶段特征选择方法,分别通过相关性
本 研 究 为 一 项 回 顾 性 研 究 ,所 有 数 据 来 源 于 分析和 Boruta 特征选择算法(Boruta feature selection al‐
MIMIC-Ⅳ数据库,根据《健康保险携带和责任法案》进 gorithm,简称 Boruta 算法)对特征进行筛选与优化。首
行去标识化处理。数据库的访问遵循PhysioNet认证的 先,采用 Pearson 相关系数(r)评估各数值型特征间的线
健康数据许可 1.5.0 的要求,需完成以下流程:(1)通过 性关联强度,使用 pheatmap 包绘制特征相关性热力图。
PhysioNet 官方研究人员身份验证和专业资质审核;(2) 相关性强度界定:|r|<0.3为弱相关,0.3≤|r|<0.7为中等
完成 CITI Program 规定的“Data or Specimens Only Re‐ 相关,|r|≥0.7为强相关,并记录r的正负号以反映变量间
search”伦理培训课程(ID:50610476),通过考核;(3)签 的变化方向(正相关或负相关)。其次,采用Boruta算法
署PhysioNet数据使用协议,承诺遵守数据安全规范,包 进行特征选择,识别对模型预测具有显著贡献的特征。
括禁止重新识别患者信息、限制数据传播范围及安全存 通过比较原始特征与随机生成的影子特征的重要性得
储要求。由于本研究使用已完全去标识化的回顾性数 分,判断其统计显著性:若某特征的重要性得分持续高
据,故豁免知情同意及额外的伦理审批。 于所有影子特征的最大值,则被标记为“confirmed im‐
本研究的纳入标准包括:(1)入住 ICU 且年龄≥18 portant”;若低于所有影子特征的最小值,则标记为“un‐
岁;(2)接受静脉输注万古霉素治疗;(3)进行过万古霉 important”;其余为“tentative important”。最终,按重要
素血药谷浓度监测。本研究的排除标准包括:(1)接受 性得分均值排序,筛选出对模型预测贡献最大的关键特
[9]
透析治疗或肾脏替代治疗者;(2)体重<40 kg 或>150 征,构建精简且高效的建模特征集 。
中国药房 2025年第36卷第19期 China Pharmacy 2025 Vol. 36 No. 19 · 2449 ·

