Page 16 - 《中国药房》2023年23期
P. 16

各种中药饮片被广泛应用于临床的诊疗过程中,受到了                            2.3 处方生成
                              [2]
          广大患者与医生的认可 。                                            考虑到评价涉及用药安全性,本研究采用的专家共
              西医学习中医(简称“西学中”)是一项为了补充中                         识处方应包含每种中药饮片的具体剂量,病种涉及咳
          医从业人员,通过为西医医生提供中医理论基础培训而                            嗽、蛇伤等。
          使西医医生能够开展中医药诊疗的培训制度,发展至今                                随机抽取30个专家共识内的用药案例(均为口服水
          已有 60 余年的历史。但由于西医医师对中医知识学习                          煎剂),由 GPT-4 模型以及联网模型根据案例的临床表
          不足,使得中药或中医护理技术滥用的情况非常普遍。                            现生成处方。
          有学者通过对 2018 年上海市某社区卫生服务中心开具                         2.4 处方评价及图灵测试
          的中药门诊处方进行分析发现,不合理处方超过总处方                                GPT-4 模型、联网模型生成的中药处方和专家共识
                [3]
          的20% 。GPT-4(generative pre-trained transformer 4)是  处方由三明市中西医结合医院3名具有副高级及以上职
          一种基于 Transformer 架构的生成式人工智能(AI gene-                称的中医师/中药师根据处方安全性、适宜性进行盲评
          rated content,AIGC),其强大的逻辑自洽和数据分析能                 (每张处方的最终得分为3名专家的平均分),并判断每
          力使其一面世立刻成为各个领域关注的焦点。本研究                             张处方是否为人工生成 。考虑到相应法规及医学伦理
                                                                                  [7]
          准备借助GPT-4赋能,拟通过抽取国内公开的常见中药                          方面的要求,GPT-4 模型及联网模型生成的中药处方未
          应用案例,采用对话问答的方式由GPT-4进行中药处方                          使用临床试验进行测评。本研究主要根据用药安全性、
          生成测试,再由中医药学领域的专家对生成结果进行评                            适宜性(即根据“十八反十九畏”、超剂量使用、“先煎后
          分,同时进行图灵测试,评估 GPT-4 模型是否具有与人                        下”等标注、对症情况)由具有副高级及以上职称的专家
          类智能相当的能力,为 AIGC 赋能中医药行业提供一种                         对生成处方和共识处方进行评分(评分标准见表1)。为
          研究思路。                                               保证评分的准确性,在评分时,专家不知道处方是由模
          1 案例来源                                              型生成的或是人工生成的(即盲评)。
              由研究者随机抽取《2023年春季成人流行性感冒中                                       表1 专家评分标准
                            [4]
          医药防治专家共识》 、《咳嗽中医诊疗专家共识意见                            评价标准                      评价说明(分值共5分,实行扣分制)
         (2021)》 、《毒蛇咬伤中医诊疗方案专家共识(2016                        是否出现“十八反十九畏”              出现“十八反十九畏”扣2分
                 [5]
                                                              是否出现超剂量使用                 出现超剂量使用扣1分
              [6]
          版)》 收录的案例,并排除临床表现的中医诊断证型与                           是否未标明“先煎后下”等              出现未标明“先煎后下”等扣1分
          用药存在较大争议的案例(如同一临床表现被不同专家                            处方是否对症                    处方不对症扣1分
          判断为虚寒、虚热两个相反证型的案例)。                                     专家对处方进行评分时,同时需要判断该处方是否
          2 研究方法                                              为人工生成的处方(即图灵测试)。如果超过一半的模
          2.1 研究框架                                            型生成处方被错误判断或模型生成处方被错误判断的
              本研究主要分为3个部分:首先,使用2020年版《中                       比例高于人工生成处方,则说明自动生成的处方对人类
          国药典》和中国中医药出版社出版的第5版《中药学》为                           有足够的迷惑性。该测试用于评估 GPT-4 模型是否具
          语料对 GPT-4 模型进行训练;然后,使用 GPT-4 模型,根                   有与人类智能相当的能力。
          据“1.1”项下抽取案例的临床表现进行中药处方生成;最                         2.5 统计学方法
          后,以人工盲评的方式对模型生成的中药处方进行                                  采用 SPSS 26.0 软件对数据进行统计分析 。对各
                                                                                                      [8]
          评价。                                                 生成处方盲评所得分数进行正态性检验,并分别将专家
              需要注意的是,考虑到GPT-4原生训练数据来自于                        共识处方和GPT-4生成处方、联网模型生成处方盲评分
          2021年及之前的互联网数据,为进一步研究GPT-4模型                        数进行配对t检验分析。检验水准α=0.05。
          的处方生成能力,本次研究将把基于GPT-4开发的实时                          3 结果
          联网模型(简称“联网模型”)一同纳入处方生成研究,并                          3.1 数据正态性检验分析
          将处方生成结果一同参与盲评,最后将GPT-4模型和联                              本次研究共纳入30个临床案例,各类型处方通过盲
          网模型生成结果的盲评得分进行对比。                                   评所得分数的正态性检验见表2。
          2.2 模型训练                                                        表2 数据正态性检验分析
              将 2020 年版《中国药典》和第 5 版《中药学》的文字                                   盲评                   Shapiro-Wilk检验
                                                              处方类型       样本量      标准差   偏度   峰度
          内容发送至GPT-4模型以及联网模型,对模型接受程度                                         平均分                  统计量(W值)  P
                                                              专家共识处方      30  3.756  0.747  0.305  -0.188  0.961  0.327
          进行确认并针对处方的格式进行命令限制,以提升模型                            GPT-4生成处方   30  3.622  0.508  -0.254  -0.343  0.940  0.089
          对中药饮片和处方的理解分析能力。                                    联网模型生成处方    30  3.501  0.478  -0.079  0.886  0.940  0.090


          · 2826 ·    China Pharmacy  2023 Vol. 34  No. 23                            中国药房  2023年第34卷第23期
   11   12   13   14   15   16   17   18   19   20   21