Page 110 - 《中国药房》2024年15期
P. 110

占总用药错误的25%和33%           [4―5] 。建立易混淆药品目录           除这些潜在的影响因素,在得到药品通用名后,可以进
          是减少易混淆药品调配差错的重要措施                   [6―7] 。然而,当     一步剔除剂型和给药途径等信息,从而得到更利于易混
          前大多数医院的药品数已逾千种              [2,8] ,仅靠人力维护易混         淆药品识别的药品品种名。需要特别指出的是,有少数
          淆药品目录不仅效率低下,而且极易出现疏漏。因此,                            药品的通用名并不包含明确的剂型信息,如开塞露、强

          利用先进的技术手段来辅助管理和维护易混淆药品目                             力枇杷露和破伤风抗毒素等。对于这类药品,可直接使
          录就变得尤为重要。                                           用通用名作为药品的品种名。
              易混淆药品引起混淆的主要原因在于药品名称中                           1.2.2 药品名称的相似性度量
          包含的文字元素具有高度相似性。因此,为了衡量药品                                不管是药品的通用名还是品种名,本质上都是字符
          名称之间的相似性,需要借助一种可靠的度量工具。莱                            串。在计算机领域,常采用 LD 来衡量 2 个字符串的相
          文斯坦距离(Levenshtein distance,LD)作为一种编辑距               似性。基于LD计算药品名称相似性的算法如下。
          离,在计算机科学中常用于量化2个字符串之间的相似                                给定 2 个药品的名称字符串,以 a 和 b 表示,其长度
            [9]
          性 。具体而言,LD是指将一个字符串转变为另一个字                           分别记为| a |和|b|。那么计算a和b之间编辑距离的LD
          符串所需的最少单字符编辑操作次数。这些操作包括                             模型可表述为:
          插入、删除和替换单个字符。LD 在多个领域都有重要                                          ìmax(i,j)                                当min(i,j)=0
                                                                             ï ï ï
          应用价值,如 DNA 分析、拼写检查、自然语言处理以及                                        ï ï ï  ìLev a,b (i - 1,j)+ 1
                                                                  Lev a,b( ) = í  ï ï ï ï                 …(1)
                                                                        i,j
          抄袭侦测等领域。在药学领域,尽管 LD 已被应用于筛                                         ï ï min í Lev a,b (i,j - 1)+ 1  当min(i,j)≠0
                                                                             ï
                                                                                ï ï
                                                                             ï
                                                                                î
                    [10]
          选听似药品 ,但尚未建立起易混淆药品组的自动识别                                           ï ï î  ï ïLev a,b (i - 1,j - 1)+ ε
                                                                             i,j
                                                                其中,Lev    a,b( ) 表示a的前i个字符与b的前j个字
          方法,同时也缺乏对易混淆药品相似性阈值筛选过程的
          深入分析与研究。                                            符的编辑距离; ε为逻辑函数,取值为:
              为了增强药品使用的安全性,降低因药品名称混淆                                ì0              当a i = b j
                                                                  ε =  í            ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅(2)
          而引发的潜在风险,本课题组拟以LD算法为理论基础,                                 î 1              当a i ¹ b j
          探索易混淆药品组的自动识别机制和相似性阈值筛选                               其中, a 和 b 分别表示 a 的第 i 个字符和 b 的第 j 个
                                                                            j
                                                                        i
          方法。通过该研究,期望构建出一种高效的算法,以自                            字符。LD 模型的计算过程通常记录在一个( | a | + 1) ´
          动且精准地生成易混淆药品目录。为验证算法的实用                             ( |b| + 1) 的二维数组 L 中,即 L( i,j) = Lev a,b( i,j) 。值得
          性 ,本 课 题 组 拟 在 Visual  Basic  2010  Express 和 SQL
                                                              注意的是, L 的索引从 0 开始,而不是 1。LD 模型的计
          Server 2008 R2 Express 平台上开发易混淆药品目录管
                                                              算,从i = 0、j = 0开始,直到i = | a |、j = |b|结束。最终得
          理系统,提升对易混淆药品目录的管理效率。
                                                              到的 Lev a,b( | a |,|b|) 或 L( | a |,|b|) ,即为药品名称 a 与药
          1 资料与方法
                                                              品名称b的编辑距离。
          1.1 资料来源
                                                                  编辑距离 Lev    a,b( | a |,|b|) 只反映了编辑所需的次
              门诊药房和住院药房的药品目录均来自医院信息
                                                              数,未包含字符串的长度信息,因此不能较好反映药品
          系统(hospital information system,HIS)。药品目录内包
                                                              名称之间的相似性。本课题组基于LD进一步定义了衡
          含了药品的唯一识别码、名称、规格、生产厂家和计数单
                                                              量 2 个 字 符 串 相 似 度 的 指 标 ,即 R(a,b) = 1 -
          位等重要信息。从 HIS 导出的药品信息仅限于在库药
                                                              L( | a |,|b|) /max( | a |,|b|) 。R 不仅考虑了字符串长度,而
          品。对于无库存的药品,因其不存在引起药品混淆的风
          险,故不需要导出。                                           且最大值被限定为 1,因此便于对药品名称之间的相似
          1.2 易混淆药品目录的自动生成算法                                  性进行比较。基于 LD 的药品名称相似性算法代码

          1.2.1 药品名称的规范化处理                                    见图1。
              从 HIS 导出的药品名称中时常包含备注信息。这                        1.2.3 易混淆药品组的自动识别
          些备注信息通常被标记在一对括号之中,且位于药品通                                本课题组采用阈值法来自动识别易混淆药品组。
          用名的最前端或最后端。鉴于备注信息并非药品名称                             首先,设定1个相似性阈值δ Î [0,1],用于判断2个药品
          的组成部分,需将其剔除。                                        名称之间的相似程度是否达到了易混淆的标准。接着,
              药品通用名中的剂型或给药途径等信息,在特定情                          将所有药品名称存入一维数组 A。最后,从 A 中识别出
          境下,可能对易混淆药品的识别产生一定干扰。为了排                            所有易混淆药品组。


          · 1900 ·    China Pharmacy  2024 Vol. 35  No. 15                            中国药房  2024年第35卷第15期
   105   106   107   108   109   110   111   112   113   114   115