Page 21 - 《中国药房》2022年19期
P. 21
9.2 数据挖掘 常被用于自然语言处理。由于加入了时间属性,此方法
数据挖掘的目标是从大量的真实世界病例数据中 对数据要求很高。需要注意的是,真实世界数据中特征
发现重要特征的相关关系。自变量和协变量可包括: 记录的时间不一定是特征实际发生的时间,如诊断,患
(1)患者基本信息及生理状态,包括但不限于性别、年 者事实上已经有该生理状态,诊断记录的是该状态被发
龄、烟酒史、家族史、基础疾病、诊断、特殊状态(如妊娠、 现的时间。
某些高风险职业等)、基因信息等。(2)对患者生理状态 当使用上述挖掘方法获得的结果不佳时,原因可能
的干预,包括但不限于使用药物、手术及其他治疗手段。 有多种,如(1)样本量不够、不均衡或有偏差。(2)特征选
上述因素即数据挖掘方法的输入特征(以下统称“特 择不合理、不全面。(3)特征缺失过多,一些关键数据未
征”)。考虑到真实世界病例数据的局限性,应根据研究 被记录在“真实世界数据”中,需要根据实际情况判断原
目标结局的时效性,选择一次住院或多次就诊可获取的 因,从而进一步调整数据或者训练方法。
数据,用以观察目标结局。本文仅探讨回顾性电子病历 10 质量控制
数据的应用,因此此处仅简要叙述适用于回顾性电子病 数据的质量控制应建立在完善的真实世界研究数
[9]
历数据的、挖掘安全性结局相关影响因素的方法,并按 据质量管理体系及完善的标准操作流程之上 。应特别
照单特征、多特征、多特征序列分类。病例的“全周期” 关注以下几方面——(1)源数据的质量:高质量的研究
数据往往无法通过单个数据源获取;如需更强的证据来 中心可保障源数据的完整性和准确性,减少数据本身的
源,应整合涉及患者流转的多中心数据,以完善病例全 缺失和偏差,也可提升数据治理的效率。(2)研究方案和
周期数据。 数据提取文档的设计:根据数据提取文档采集字段,需
9.2.1 单特征对结果的影响 常用的方法是通过建立 确认关键字段已被收集;数据的提取由指定的专业人员
暴露-非暴露对照组(或者A、B药物暴露对照组),对比2 按照规定的流程进行提取,非授权人员不应对信息系统
组的不良事件发生率,可定性判断某个因素对结果的影 有任何操作行为。(3)使用标准化字典:保证数据治理流
响;或可建立低剂量暴露-高剂量暴露对照组,从而定量 程记录完整、可追溯。(4)在数据核查、清洗和转化的各
分析剂量高低对不良反应发生率的影响。这种方法的 步骤都应设有检查文档,避免步骤缺失。
重点包括建立纳排标准、控制协变量、建立研究基线、选 11 数据管理与储存
择适宜的方法构建回归方程等。 开展真实世界研究应有独立的服务器用于处理、储
9.2.2 多特征对结果的影响 多个特征对结果的影响 存数据。课题原始数据应存储在固定存储设备中;为保
是比较复杂的,原因分析如下:人体病理与干预是一个 障信息安全,应进行异地备份,或至少将原始数据存储
复杂的因果系统;很多关键事件未被记录在真实世界数 在2个固定存储设备中;为满足研究需求,应将多中心数
据中;无法判断关键事件的实际发生时间。多特征分析 据集中,存储于独立、安全的服务器中,并应分权限管
常用的方法包括Logistic回归/线性回归(线性、定量)、决 理,具体要求如下。
策树(线性、定性)、支持向量机模型(非线性、定量) 11.1 数据管理要求
[17]
等 。通常将数据划分为2~3个数据集,如用于发现因 在处理多中心数据信息时,应将文件存储在指定的
果关系的训练集、用于调整算法参数的验证集(可选)、 保密区域中,未经管理员的许可,不得以任何手段将涉
用于检验算法的测试集等。应重点关注对特征数据的 密数据信息带出保密区域。在计算机上使用移动存储
预处理。特征通常分为离散型(如性别、是否妊娠、诊断 设备必须有详细的登记和使用记录,包括时间戳与操作
等)和连续型(如药物摄入剂量)2种数据类型,需要将2 内容等。应对研究人员进行Windows域权限管理,严格
种类型归一化,并形成算法的输入特征;对缺失特征应 管理数据的权限访问。存放数据信息系统的服务器仅
单独处理。 通过交换机在局域网内部应用,仅允许维护和数据应用
9.2.3 多特征构成的序列对结果的影响 每个特征与 的客户端进行访问,其他电脑一律不得访问,以确保系
结果发生的时间间隔不同,如相对发生时间更早的特 统内数据的安全性。涉及数据储存的软硬件应统一由
征,与不良事件时间上临近的“短期特征”应得到更多的 数据处理部或专人管理,对硬盘进行定期整理,定期保
关注。但这并非绝对,由于人体病理和药理的复杂性, 存系统日志。路由器、交换机、数据存储设备和数据库
较早的“长期特征”亦可能起到更主要的作用。研究者 服务器等关键设备应放置在指定地点。应对系统数据
需要从数据中挖掘序列特征对结果的影响。 实施严格的安全与保密管理,防止系统数据的非法生
将时间线上的所有特征和结果按先后顺序构建一 成、变更、泄露、丢失及破坏。
个序列,这个序列也是患者病程中的关键控制点。处理 11.2 数据传输安全
序列数据的常用方法是循环神经网络及长短期记忆。 数据需通过信息通道与文件双加密传输,个别情况
这些方法可用于探究序列前后特征与结果的关联,也经 下使用移动介质传输的数据需对文件进行加密,密钥应
中国药房 2022年第33卷第19期 China Pharmacy 2022 Vol. 33 No. 19 ·2319·