Page 110 - 《中国药房》2024年15期
P. 110
占总用药错误的25%和33% [4―5] 。建立易混淆药品目录 除这些潜在的影响因素,在得到药品通用名后,可以进
是减少易混淆药品调配差错的重要措施 [6―7] 。然而,当 一步剔除剂型和给药途径等信息,从而得到更利于易混
前大多数医院的药品数已逾千种 [2,8] ,仅靠人力维护易混 淆药品识别的药品品种名。需要特别指出的是,有少数
淆药品目录不仅效率低下,而且极易出现疏漏。因此, 药品的通用名并不包含明确的剂型信息,如开塞露、强
利用先进的技术手段来辅助管理和维护易混淆药品目 力枇杷露和破伤风抗毒素等。对于这类药品,可直接使
录就变得尤为重要。 用通用名作为药品的品种名。
易混淆药品引起混淆的主要原因在于药品名称中 1.2.2 药品名称的相似性度量
包含的文字元素具有高度相似性。因此,为了衡量药品 不管是药品的通用名还是品种名,本质上都是字符
名称之间的相似性,需要借助一种可靠的度量工具。莱 串。在计算机领域,常采用 LD 来衡量 2 个字符串的相
文斯坦距离(Levenshtein distance,LD)作为一种编辑距 似性。基于LD计算药品名称相似性的算法如下。
离,在计算机科学中常用于量化2个字符串之间的相似 给定 2 个药品的名称字符串,以 a 和 b 表示,其长度
[9]
性 。具体而言,LD是指将一个字符串转变为另一个字 分别记为| a |和|b|。那么计算a和b之间编辑距离的LD
符串所需的最少单字符编辑操作次数。这些操作包括 模型可表述为:
插入、删除和替换单个字符。LD 在多个领域都有重要 ìmax(i,j) 当min(i,j)=0
ï ï ï
应用价值,如 DNA 分析、拼写检查、自然语言处理以及 ï ï ï ìLev a,b (i - 1,j)+ 1
Lev a,b( ) = í ï ï ï ï …(1)
i,j
抄袭侦测等领域。在药学领域,尽管 LD 已被应用于筛 ï ï min í Lev a,b (i,j - 1)+ 1 当min(i,j)≠0
ï
ï ï
ï
î
[10]
选听似药品 ,但尚未建立起易混淆药品组的自动识别 ï ï î ï ïLev a,b (i - 1,j - 1)+ ε
i,j
其中,Lev a,b( ) 表示a的前i个字符与b的前j个字
方法,同时也缺乏对易混淆药品相似性阈值筛选过程的
深入分析与研究。 符的编辑距离; ε为逻辑函数,取值为:
为了增强药品使用的安全性,降低因药品名称混淆 ì0 当a i = b j
ε = í ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅(2)
而引发的潜在风险,本课题组拟以LD算法为理论基础, î 1 当a i ¹ b j
探索易混淆药品组的自动识别机制和相似性阈值筛选 其中, a 和 b 分别表示 a 的第 i 个字符和 b 的第 j 个
j
i
方法。通过该研究,期望构建出一种高效的算法,以自 字符。LD 模型的计算过程通常记录在一个( | a | + 1) ´
动且精准地生成易混淆药品目录。为验证算法的实用 ( |b| + 1) 的二维数组 L 中,即 L( i,j) = Lev a,b( i,j) 。值得
性 ,本 课 题 组 拟 在 Visual Basic 2010 Express 和 SQL
注意的是, L 的索引从 0 开始,而不是 1。LD 模型的计
Server 2008 R2 Express 平台上开发易混淆药品目录管
算,从i = 0、j = 0开始,直到i = | a |、j = |b|结束。最终得
理系统,提升对易混淆药品目录的管理效率。
到的 Lev a,b( | a |,|b|) 或 L( | a |,|b|) ,即为药品名称 a 与药
1 资料与方法
品名称b的编辑距离。
1.1 资料来源
编辑距离 Lev a,b( | a |,|b|) 只反映了编辑所需的次
门诊药房和住院药房的药品目录均来自医院信息
数,未包含字符串的长度信息,因此不能较好反映药品
系统(hospital information system,HIS)。药品目录内包
名称之间的相似性。本课题组基于LD进一步定义了衡
含了药品的唯一识别码、名称、规格、生产厂家和计数单
量 2 个 字 符 串 相 似 度 的 指 标 ,即 R(a,b) = 1 -
位等重要信息。从 HIS 导出的药品信息仅限于在库药
L( | a |,|b|) /max( | a |,|b|) 。R 不仅考虑了字符串长度,而
品。对于无库存的药品,因其不存在引起药品混淆的风
险,故不需要导出。 且最大值被限定为 1,因此便于对药品名称之间的相似
1.2 易混淆药品目录的自动生成算法 性进行比较。基于 LD 的药品名称相似性算法代码
1.2.1 药品名称的规范化处理 见图1。
从 HIS 导出的药品名称中时常包含备注信息。这 1.2.3 易混淆药品组的自动识别
些备注信息通常被标记在一对括号之中,且位于药品通 本课题组采用阈值法来自动识别易混淆药品组。
用名的最前端或最后端。鉴于备注信息并非药品名称 首先,设定1个相似性阈值δ Î [0,1],用于判断2个药品
的组成部分,需将其剔除。 名称之间的相似程度是否达到了易混淆的标准。接着,
药品通用名中的剂型或给药途径等信息,在特定情 将所有药品名称存入一维数组 A。最后,从 A 中识别出
境下,可能对易混淆药品的识别产生一定干扰。为了排 所有易混淆药品组。
· 1900 · China Pharmacy 2024 Vol. 35 No. 15 中国药房 2024年第35卷第15期