Page 18 - 《中国药房》2022年19期
P. 18

量来源,还应注意设计提取用于链接不同数据表间信息                            数据存储结构。各中心在数据提取时应赋予患者在该
          的关键字段。此外,普适性的真实世界研究设计方法在                            院患者唯一识别码(以下简称“患者 ID”),并用就诊码
          现有指南和规范中已有描述            [1,6,8] ,本文不再赘述。           (以下简称“就诊ID”)区分同一患者不同就诊记录,通过
          2 源数据适用性评价                                          患者 ID 与就诊 ID 链接各表间同一患者的不同字段信
              在初步确定真实世界研究中心后,需对源数据的适                          息。回顾性数据提取应注意各类数据提取时的要点,具
          用性进行评价。应从可及性、伦理合规、代表性等维度,                           体如下。
          对源数据进行初步评价和选择。源数据的适用性评价                             3.1 数值型数据提取
          受数据源类型[如医院信息系统数据(与本文关注的电                                数值型数据提取时,应同时提取用以辅助分析的字
          子病历数据属于同类)、患者自报告结局、医保支付数据                           段,以满足数据转化的要求,如各类医嘱均应同时提取
          等]和数据性质(如回顾性或前瞻性)影响较大,较少受                           其开立时间、停止时间、执行频次等。用药记录应提取
          真实世界研究目的影响。多中心回顾性电子病历数据                             完整的通用名及商品名、剂量及单位、给药途径、给药频
          适用性评价量表见表1。由于多中心医疗机构常规诊疗                            次、开始及停止用药时间;一日记录多次的生命体征应
          数据存在长期随访信息缺失、各中心数据标准不统一等                            同时提取全部记录数值、单位、测量时间。实验室检验
          局限性,其他既有健康医疗数据也存在各自的优势和局                            检查结果应附量纲及标准值;多中心数据需同时提取各
              [9]
          限性 ,因此在选择研究中心时,需首要考虑样本量。在                           中心的检验检查结果正常值,用于数据转化。若单独标
          条件允许的情况下,应充分考虑地域分布问题,尽可能                            记“标本类型”(如血液、尿液、粪便等),应同时提取“标
          广泛地纳入具有区域代表性的研究中心。研究参与人                             本类型”中的内容。
          员方面,除需具有专业知识背景外,还需了解真实世界                            3.2 文本型数据提取
          研究的方法、有真实世界数据提取与分析经验、熟悉本                                文本型数据提取时,应尽可能提取完整的信息。如
          院数据提取方法及流程,以便在数据处理及分析过程中                            超声、CT、核磁共振等影像学检查及心电图、肌电图等电
          对于一些本院独有的情况给予合理的解释。经源数据                             生理检查,一般情况下仅提取文字报告,条件允许的情
          适用性评价无法满足研究需求的中心(如评价证实该中                            况下应提取图像资料,由专业医师根据研究进行二次识
          心无法提取或无相关数据),应考虑用其他数据源代替,                           别分析;现病史、病案首页记录、会诊记录、不良反应分
          必要时及时更换研究中心。                                        析等主观记录材料根据预先设定的关键词从病历记录
          表1   多中心回顾性电子病历数据的源数据适用性评价                          中提取。
               量表                                             4 数据验证
           评价对象 评价内容                   评价标准                   4.1  样本数据验证
           机构   可及性     机构数据是否可被获取
                伦理合规    是否能通过院内伦理委员会审核                            开展样本数据验证时,应优先比较样本数据与数据
                代表性     是否具有区域或学科代表性                          提取接口文档,查验字段完整性及字段含义准确性。未
                数据状态    是否支持完成项目;立项文件研究方案中是否包括数据提取方法          提取到的数据应核实原因,若是在数据提取时遗漏,应
                关键变量完整性 是否包含临床结局和暴露变量;数据实际情况与拟提取字段表匹配程度       立即补充数据后再进行样本数据验证;若因中心系统建
                样本量     是否可以达到目标样本总量
                源数据活动状态 是否可以使用备份数据库提取数据;提取数据是否会影响该中心系统正常使用    设问题无法提取数据,应考虑采用其他方式补充数据
           人员   研究者     资质背景是否符合研究要求                         (如按照病历号查找病例并手动补充临床系统中的可见
                信息科人员   是否熟悉回顾性研究数据的提取要求                      内容),或考虑该部分数据是否为必需提取的内容。多
                        对提取数据中异常情况是否能给予合理解释
                联系人     对于本院数据及相关软件、系统的熟悉程度                   中心的数据提取要求较单中心更严格。单中心数据提
                        是否可以与信息科有效沟通                          取大多只考虑数据完整性,而多中心数据提取要确保提
          3 数据提取                                              取字段的意义一致,如检验子项“时间”统一为“送检时
              数据提取时应先进行样本数据提取,样本数据验证                          间”而非“报告时间”。同时,要注释易误解的字段,如总
          通过后,再进行全样本数据提取。原则上,样本数据与                            剂量、处方取药、给药停止时间或医嘱停止时间的定义。
          全样本数据提取规则相同,仅存在数据量的差异。                              4.2 全样本数据验证
              数据在提取过程中需满足安全性要求,应由各中心                              数据正式提取后,应首先验证提取出的数据与数据
          内部使用不可逆算法对敏感数据字段脱敏后汇总处理。                            接口文档的一致性及数据完整性。对于过程中出现的
          在数据提取时,建议使用统一的提取格式,采取“csv”格                         数据缺失情况,要如实记录原因。同时也要检查数据结
          式提取(“csv”格式通用性较好,可兼容多种软件工具,                         尾是否存在截断情况,如果存在,需考虑数据是否在提
          亦无数据量上限,可避免提取过程中数据的缺失)。数                            取过程中丢失,如果数据丢失需重新提取。由于正式提
          据收集过程中,各中心均应在时间允许的情况下进行小                            取的数据量可能与样本数据的量级差距较大,在提取大
          样本预提取;也应提供本中心数据提取需求模板,明确                            样本数据时可能出现数据截断,因此并不应默认样本数


          ·2316·   China Pharmacy 2022 Vol. 33 No. 19                                 中国药房    2022年第33卷第19期
   13   14   15   16   17   18   19   20   21   22   23