Page 19 - 《中国药房》2022年19期
P. 19
据提取完整的中心,在全样本数据提取时的数据也完 指定约束关系,如通过身高、体质量计算所得体质量指
整。每次提取数据时均应开展数据验证。 数应与记录值相同。定义一致指不同表内指向同一变
5 数据合库 量的数据定义及内容应相符,数据与其描述的客观特征
数据合库时,应先标注中心名称(或代码)及各条目 应一致,同一变量在不同样本记录中应采用统一的数据
数据序号,以便追溯原始数据。按照数据验证结果创建 定义,如不同中心记录的“药物剂量”“单次剂量”等说法
整合表,并从原始表选择插入目标字段、中心名称(或代 均代表“单次用药剂量”,需统一命名。格式一致指数据
码)、各条目数据序号。数据合库过程中,应记录整合表 字段内容应遵守统一格式,如日期 MM/DD/YYYY 与
字段与原始表字段的对应关系,并检查选择插入的数据 DD/MM/YYYY易产生混淆。
量和原始表中的数据量是否一致,避免合库过程中导致 6.2.2 合理性核查 合理性核查内容包括时序、阈值范
[12]
的删失。 围、逻辑等 。合理性核查中,时序核查包括出入院时
6 数据核查 间、检验检查取样时间、送检与报告时间、医嘱开立与停
开展数据核查时应先将各表通过患者ID及就诊ID 止时间等。如存在超出研究设定提取时间范围的数据,
进行关联,确定编码映射关系是否对应且唯一,如确定 应与研究人员讨论决定如何处理超出研究时间范围的
各表间患者数及病例数是否对应。建议使用计数的方 数据(同时应检查是否存在由于合库导致的时间格式错
式检查每个表的数据记录数、字段数、病例数,检查表间 误)。阈值范围核查,即核查检验检查异常值、用药剂
是否存在数据缺失。值得注意的是,提取出的数据中的 量、用药开始或停止时间等是否合理。值得注意的是,
就诊 ID 应为脱敏后的患者住院号或就诊 ID,与院内人 本规程仅涉及核查逻辑不合理的异常值,如应为正值但
员在本院系统中所见就诊ID不应为同一号码。回顾性 是记录为负值、应记录为“+/-”但记录为数字或文字、
研究数据的逻辑核查至少应包括2个方面的内容——完 时间在 1900 年以前或者未来等异常值。逻辑核查范围
整性、准确性 [10―11] 。值得注意的是,前瞻性数据核查应 较宽泛,如结局变量随时间变化趋势是否合理。
注意的内容(如违背方案)本文暂不涉及。 7 数据清洗
6.1 数据完整性核查
经核查完整、准确的数据需要采用信息技术方法对
数据完整性核查应检查数据信息的缺失程度,包括
其进行汇总、清洗与转化,形成集成数据。在数据清洗
变量的缺失和变量值的缺失。首先,应基于源数据适用
或任何涉及改变数据记录的操作时,应记录步骤及具体
性评价进行核查,数据应满足相关研究目的所要求收集
命令代码以便后续回查。数据清洗包括对原始数据进
的最少变量信息,多中心回顾性电子病历数据的源数据
行重复或冗余数据的去除、缺失值的核查及补齐等。
各数据表注释及必需字段见表 2。其次,应核查单个变
7.1 重复或冗余数据的去除
量的记录完整度是否满足待研究变量的最小统计效能,
对于明确重复或冗余的数据应去除。为提高数据
在充分考虑混杂因素、缺失数据等因素的基础上满足统
治理的效率,不在研究范围内的信息也应去除。如以
计假设的要求。
“停药”为目的的单独医嘱;与研究无关但同时被提取出
表2 多中心回顾性电子病历数据的源数据各数据表注
的医嘱字段。无法明确为冗余信息的数据,需提前了解
释及必需字段
各中心和各治疗领域的开嘱习惯。如对领药、退药医嘱
数据表 注释 必需字段
患者表 患者本人的不可变信息 患者ID、性别、出生日期、民族等 的处理,应根据不同研究方案和需求,与研究者确定。
病历/就诊表 患者本次就诊信息 患者ID、就诊ID、入院日期、出院日期、就诊类型、入院科 如果患者样本量大,用药情况复杂,退药较少,且不考虑
室名称、出院科室名称等 合并用药剂量,则退药相关医嘱不应被纳入研究。而研
用药表 本次就诊的全部用药信息 患者ID、就诊ID、药品名称、药品剂型、药品规格、单次剂
量、给药频次、给药途径、用药开始时间、用药结束日期、 究生物制剂时,常需考虑各大常用药物剂量及频次,所
医嘱类型等 以仅剔除“领药医嘱”,单独讨论“退药医嘱”。
检验检查表 本次就诊与研究相关的检验检查 患者ID、就诊ID、检验标本、检验检查子项名称、检验检 7.2 缺失值的核查及补齐
项目的全部信息 查结果、检验检查单位、检验检查时间等(需另附检验检 数据完整性处理应首先检查缺失数据能否补齐。
查子项正常值范围)
诊断表 本次就诊的全部诊断信息 患者ID、就诊ID、诊断名称、诊断时间、是否为主诊断、诊 补齐方式应根据数据的缺失程度、缺失原因和变量值的
断类型等 缺失机制设定。如出现关键数据无法补齐的情况,应剔
6.2 数据准确性核查 除无法补齐的病例。回顾性真实世界研究中常用的缺
数据准确性核查包括一致性、合理性2个方面,具体 失数据处理方法包括完整观测分析、可用观测分析、末
[1]
如下。 次观测值结转法、均数填补等 。在填补用药时间时,应
6.2.1 一致性核查 一致性核查包括指向一致、定义一 考虑目标药品的用法用量。当涉及文字信息的缺失时,
致和格式一致 。指向一致指相互关联的数据应符合 可尝试通过其他字段内容填补。如存在用药信息缺失,
[12]
中国药房 2022年第33卷第19期 China Pharmacy 2022 Vol. 33 No. 19 ·2317·