Page 18 - 《中国药房》2022年19期
P. 18
量来源,还应注意设计提取用于链接不同数据表间信息 数据存储结构。各中心在数据提取时应赋予患者在该
的关键字段。此外,普适性的真实世界研究设计方法在 院患者唯一识别码(以下简称“患者 ID”),并用就诊码
现有指南和规范中已有描述 [1,6,8] ,本文不再赘述。 (以下简称“就诊ID”)区分同一患者不同就诊记录,通过
2 源数据适用性评价 患者 ID 与就诊 ID 链接各表间同一患者的不同字段信
在初步确定真实世界研究中心后,需对源数据的适 息。回顾性数据提取应注意各类数据提取时的要点,具
用性进行评价。应从可及性、伦理合规、代表性等维度, 体如下。
对源数据进行初步评价和选择。源数据的适用性评价 3.1 数值型数据提取
受数据源类型[如医院信息系统数据(与本文关注的电 数值型数据提取时,应同时提取用以辅助分析的字
子病历数据属于同类)、患者自报告结局、医保支付数据 段,以满足数据转化的要求,如各类医嘱均应同时提取
等]和数据性质(如回顾性或前瞻性)影响较大,较少受 其开立时间、停止时间、执行频次等。用药记录应提取
真实世界研究目的影响。多中心回顾性电子病历数据 完整的通用名及商品名、剂量及单位、给药途径、给药频
适用性评价量表见表1。由于多中心医疗机构常规诊疗 次、开始及停止用药时间;一日记录多次的生命体征应
数据存在长期随访信息缺失、各中心数据标准不统一等 同时提取全部记录数值、单位、测量时间。实验室检验
局限性,其他既有健康医疗数据也存在各自的优势和局 检查结果应附量纲及标准值;多中心数据需同时提取各
[9]
限性 ,因此在选择研究中心时,需首要考虑样本量。在 中心的检验检查结果正常值,用于数据转化。若单独标
条件允许的情况下,应充分考虑地域分布问题,尽可能 记“标本类型”(如血液、尿液、粪便等),应同时提取“标
广泛地纳入具有区域代表性的研究中心。研究参与人 本类型”中的内容。
员方面,除需具有专业知识背景外,还需了解真实世界 3.2 文本型数据提取
研究的方法、有真实世界数据提取与分析经验、熟悉本 文本型数据提取时,应尽可能提取完整的信息。如
院数据提取方法及流程,以便在数据处理及分析过程中 超声、CT、核磁共振等影像学检查及心电图、肌电图等电
对于一些本院独有的情况给予合理的解释。经源数据 生理检查,一般情况下仅提取文字报告,条件允许的情
适用性评价无法满足研究需求的中心(如评价证实该中 况下应提取图像资料,由专业医师根据研究进行二次识
心无法提取或无相关数据),应考虑用其他数据源代替, 别分析;现病史、病案首页记录、会诊记录、不良反应分
必要时及时更换研究中心。 析等主观记录材料根据预先设定的关键词从病历记录
表1 多中心回顾性电子病历数据的源数据适用性评价 中提取。
量表 4 数据验证
评价对象 评价内容 评价标准 4.1 样本数据验证
机构 可及性 机构数据是否可被获取
伦理合规 是否能通过院内伦理委员会审核 开展样本数据验证时,应优先比较样本数据与数据
代表性 是否具有区域或学科代表性 提取接口文档,查验字段完整性及字段含义准确性。未
数据状态 是否支持完成项目;立项文件研究方案中是否包括数据提取方法 提取到的数据应核实原因,若是在数据提取时遗漏,应
关键变量完整性 是否包含临床结局和暴露变量;数据实际情况与拟提取字段表匹配程度 立即补充数据后再进行样本数据验证;若因中心系统建
样本量 是否可以达到目标样本总量
源数据活动状态 是否可以使用备份数据库提取数据;提取数据是否会影响该中心系统正常使用 设问题无法提取数据,应考虑采用其他方式补充数据
人员 研究者 资质背景是否符合研究要求 (如按照病历号查找病例并手动补充临床系统中的可见
信息科人员 是否熟悉回顾性研究数据的提取要求 内容),或考虑该部分数据是否为必需提取的内容。多
对提取数据中异常情况是否能给予合理解释
联系人 对于本院数据及相关软件、系统的熟悉程度 中心的数据提取要求较单中心更严格。单中心数据提
是否可以与信息科有效沟通 取大多只考虑数据完整性,而多中心数据提取要确保提
3 数据提取 取字段的意义一致,如检验子项“时间”统一为“送检时
数据提取时应先进行样本数据提取,样本数据验证 间”而非“报告时间”。同时,要注释易误解的字段,如总
通过后,再进行全样本数据提取。原则上,样本数据与 剂量、处方取药、给药停止时间或医嘱停止时间的定义。
全样本数据提取规则相同,仅存在数据量的差异。 4.2 全样本数据验证
数据在提取过程中需满足安全性要求,应由各中心 数据正式提取后,应首先验证提取出的数据与数据
内部使用不可逆算法对敏感数据字段脱敏后汇总处理。 接口文档的一致性及数据完整性。对于过程中出现的
在数据提取时,建议使用统一的提取格式,采取“csv”格 数据缺失情况,要如实记录原因。同时也要检查数据结
式提取(“csv”格式通用性较好,可兼容多种软件工具, 尾是否存在截断情况,如果存在,需考虑数据是否在提
亦无数据量上限,可避免提取过程中数据的缺失)。数 取过程中丢失,如果数据丢失需重新提取。由于正式提
据收集过程中,各中心均应在时间允许的情况下进行小 取的数据量可能与样本数据的量级差距较大,在提取大
样本预提取;也应提供本中心数据提取需求模板,明确 样本数据时可能出现数据截断,因此并不应默认样本数
·2316· China Pharmacy 2022 Vol. 33 No. 19 中国药房 2022年第33卷第19期