Page 17 - 《中国药房》2023年23期
P. 17

由表 2 可见,Shapiro-Wilk 检验结果显示,专家共识               方解,而且在生成处方的过程中,会逐渐对先煎后下等
          处方、GPT-4生成处方、联网模型生成处方具备正态性分                        特殊处理方式进行标注,其生成处方的评分结果已经非
          布特质(P>0.05)。                                       常接近专家共识处方。与此同时,已有深度学习模型介
          3.2 专家共识处方和GPT-4生成处方比较                             入影像学诊断的相关研究,其模型评分结果已经超过了
              本次研究共使用30个临床案例,专家共识处方的平                        低年资影像科医生的评分结果 。随着 AIGC 介入医学
                                                                                        [9]
          均分为3.76分,略高于GPT-4生成处方的3.62分。通过                     领域的深度和广度不断扩大,要进一步提高生成式模型
          配对 t 检验分析可知,专家共识处方和 GPT-4 生成处方                     医学水平,需要开展以下几项工作:(1)海量病例语料训
          的平均分比较,差异无统计学意义(P>0.05)。结果                         练。本次测试的病例主要为咳嗽等常规案例,未考虑到
          见表3。                                               患者性别、年龄、人种等因素,对于临床诊断等方面的内
         表3 专家共识处方和 GPT-4 生成处方的配对 t 检验分                      容有待进一步探索。(2)算法优化。临床医生年龄分布
               析结果                                           较广,对于药品名称、临床症状的口语化描述问题较为
          处方类型         平均分    标准差   平均分差值     t      P       严重。这一方面需加强规范医生的病历书写,另一方面
          专家共识处方        3.76   0.75   0.14   0.762  0.452    也需对AIGC算法进行优化,对口语化内容进行识别。
          GPT-4生成处方     3.62   0.51
                                                             4.2 联网模型质量问题
          3.3 GPT-4生成处方和联网模型生成处方比较
                                                                 本次处方评分中,联网模型生成处方的平均分最
              本次研究共使用30个临床案例,GPT-4生成处方的
                                                             低。通过对联网模型数据来源进行分析发现,其中混杂
          平均分为 3.62 分,略高于联网模型生成处方的 3.50 分。
                                                             了大量非医学类专业的网站数据,对联网模型的处方生
          通过配对t检验分析可得,GPT-4生成处方和联网模型生
                                                             成造成了极大的干扰。对互联网医学类语料进行规范
          成处方的平均分比较,差异无统计学意义(P>0.05)。
                                                             标识和整理,一方面能够提高模型的训练质量,另一方
          结果见表4。
                                                             面还能够降低群众通过互联网就医的学习成本。对中
         表4 GPT-4 生成处方和联网模型生成处方的配对 t 检
               验分析结果                                         文医学语料进行标注整理是未来生成式医学模型发展
                                                             的必经之路,同时此项工作对互联网问诊、分级诊疗、医
          处方类型          平均分    标准差   平均分差值     t     P
          GPT-4生成处方      3.62   0.51   0.12   1.040  0.307   学科普有着极大推动作用。
          联网模型生成处方       3.50   0.48                         4.3 临床方向AIGC研究的进一步探索
          3.4 图灵测试结果                                             本研究考虑到患者权益问题,并未对生成处方进行
              本研究共纳入 30 个案例,根据上述案例形成了 90                     临床试验,同时为了保护患者隐私,本研究采用的是公
          个处方(分为专家共识处方、GPT-4 生成处方、联网模型                       开的专家共识所收录的临床案例。如果要进一步发展
          生成处方各30个),由3位专家判断这90个处方是否为                         药事管理方向的 AIGC,有以下两点尚待解决:(1)诊疗
          人工生成的处方。图灵测试结果(表5)显示,270个处方                        权责以及医学伦理问题 。目前未有相关的法律法规
                                                                                  [10]
          中 ,共 有 138 个 模 型 生 成 处 方 被 错 误 判 断 ,占 比 为          对药事管理方向AIGC所生成的处方进行明确的权责划
          51.11%(>50%),其中 GPT-4 生成处方被错误判断的占                  分。生成式模型算法的程序缺陷,医生、药师对生成处
          比达 30.37%(>30%),结合上文“3.2”项下结果发现,                   方的审核失误都会对患者造成不可逆的伤害。如何保
          GPT-4模型生成处方已经具备一定的专业性。                             障患者(特别是妊娠、低龄、残疾等弱势患者群体)权益,
                         表5 图灵测试结果                           患者权益的保障方应该是模型公司还是医院(即责任归
          项目                识别为人工处方次数      识别为人工生成处方占比/%     属)等,均需要有明确的法律法规进行规范;对于紧急情
          专家共识处方                70              25.93        况下AIGC介入医学研究的程度和范围也需要伦理方面
          GPT-4生成处方             82              30.37
          联网模型生成处方              56              20.74        的专家进行研探。(2)公民隐私及遗传学信息保护问题。
          模型生成处方合计              138             51.11        随着生成式模型的发展,AIGC 进入医院药事管理领域
          4 讨论                                               是可预见的,但因算力需求等原因,该技术目前主要基
          4.1 如何提高GPT-4的学习、完善能力                              于互联网使用,尚无与 GPT-4 具有同等能力的本地化
              在使用GPT-4和联网模型进行处方生成的过程中,                       AIGC。欧盟在使用GPT模型的过程中已发现隐私及机
          GPT-4 体现出强烈的原则性和强大的学习能力,主要体                        密泄露等问题,遂将人工智能纳入安全工作研究 。医
                                                                                                       [11]
          现在:(1)要求提供蛇伤处方时,虽然研究者已经发出限                         疗信息涉及公民隐私和我国遗传学信息保护,关系到国
          制命令,要求 GPT-4 模型仅提供中药名称和单次剂量,                       家安全,AIGC本地化部署是解决以上问题的唯一途径。
          但GPT-4模型仍会发出警告,要求及时就医;(2)在放开                       另外,与此关联的还有本地化部署的设备费用、运营维
          限制命令后,GPT-4 模型不仅会对处方中每个组分进行                        护、医疗机构系统适配对接等问题。


          中国药房  2023年第34卷第23期                                              China Pharmacy  2023 Vol. 34  No. 23    · 2827 ·
   12   13   14   15   16   17   18   19   20   21   22