Page 103 - 《中国药房》2026年2期
P. 103

知识库结构chunks     Score值  结论                         检索-语言模型处理-输出”。在“知识检索”节点中接入
          “—”+适应证+正文      召回失败  知识库chunks必须完整表示“客体A-关系-客体B”,尤其  已构建的知识库;“语言模型处理”选择 DeepSeek-R1-
                                是客体的主题,否则容易召回相似的注射用伏立康唑适应
          伏立康唑片+“—”+正文     0.68  证(Score值0.7),导致回答错误         32B,并将知识检索返回的 chunks 作为上下文输入;经
          伏立康唑片*1次+适应证+正文  0.73                              DeepSeek-R1-32B对上下文与用户问题进行语义匹配与
          伏立康唑片*5次+适应证+正文  0.71  单独客体A的频次增加会拉低Score值         信息提炼后,生成结构化答案并直接输出。提示词设计
          伏立康唑片适应证*1+正文    0.73  药品说明书语义不同的内容划分为不同的chunks,可以提  嵌于“语言模型处理”节点,其核心指令如下:基于所检
          伏立康唑片适应证+正文1+    0.31
          伏立康唑用法用量+正文2          高Score值                      索的知识库(即上下文)找出与问题相关的语句进行提
          伏立康唑片适应证*1+正文    0.73                              炼,去除无关信息;如果没有找到相关信息,则反馈“本
          伏立康唑片适应证*2+正文    0.75  “客体A+关系”组合的频次增加可以提高Score值   地知识库没有找到相关资料,请联系静配中心药师进行
          伏立康唑片适应证*5+正文    0.77
          伏立康唑片适应证*5+正文    0.77                              维护”,避免 LLM 脱离本地知识库给出不切合实际的
          正文1+伏立康唑片适应证...  0.72                              答案。
          正文5+伏立康唑适应证           检索相关语句位于正文起始位置的Score值更高      3 平台运行情况和验证
          正文+伏立康唑片适应证*5    0.71
          伏立康唑片适应证*1+正文    0.73                              3.1 药学智能问答平台运行及维护
          本段内容主要描述了伏立康唑         正文起始位置添加该知识库chunks概括性语句可以提高      我院基于 Dify 平台构建的药学智能问答平台实现
                           0.75  Score值
          片的适应证+正文
                                                             了对本地知识库的精准检索与自动化问答。该平台能
             -:召回失败。                                         够快速定位药品说明书中的相关内容,并对检索结果进
           图2 不同知识库结构chunks的召回测试结果示例
                                                             行提炼、推理和整合,生成具有临床参考价值的回答;同
                   1.5
                                                             时,该平台可同步展示药品说明书原文,便于医务人员
                                              测试1
                                              测试2            查阅和比对,从而保证答案的可靠性,有效降低了可能
                   1.0                        测试3
                   Score值                                    出现的“AI 幻觉”风险;此外,该平台还可生成访问链接
                   0.5                                       并嵌入医院信息系统的下拉菜单,实现全院范围内的实
                                                             时访问与调用。
                    0                                            为确保平台内容的安全性与可控性,本地知识库不
                     0                         500                     1 000                    1 500  具备自主学习能力,并部署于医院内部网络环境,彻底
                             chunks字符长度/tokens
                 图3 不同chunks长度对应的Score值                      隔绝外网访问带来的潜在风险。当系统识别到知识缺
                                                             失时,会自动提示后台专业人员进行审核与补充,以保
          下文的关联,应先将表格内容、表格标题、表格备注剪切                          证知识内容的准确性、及时性与可追溯性。针对新增药
          处理,统一提取并编号,按照编号匹配放在对应文本的                           品,我院实行优先更新机制,确保其药品说明书及相关
          最后位置,使文本内容和表格内容分区处置。其中,表
                                                             资料在进院24 h内完成录入并纳入知识库,以满足临床
          格标题增加备注信息“本段内容主要描述了”&药品名称
                                                             即时查询需求。
         (x)+标题,每个表格单独划分为二级标题,用“##”标记。
                                                             3.2 药学智能问答平台定量检索准确性验证
          特殊复杂表格存在一行对应多列或者一列对应多行等
                                                                 药物达峰时间(tmax )是反映药物吸收速度的重要药
          情况,需先行判断行列总数,确保正确的映射关系。
                                                             动学参数,直接影响起效时间和给药方案的设计;药物
              通过预先设定上述处理规则,我院 1 120 份药品说
                                                             半衰期(t1/2 )则用于指导给药间隔,以维持血药浓度在治
          明书在2 min内完成了一键转换与标准化切分。
          2.4 构建本地知识库                                        疗窗内,兼顾疗效与安全性。本研究选择 tmax与 t1/2作为
                                                             客观指标,用于评价我院构建的药学智能问答平台信息
              本研究在完成药品说明书的清洗与标准化处理后,
                                                             检索的准确性和临床适用性。本研究从我院275种非复
          将其以 markdown 格式上传至 Dify 平台构建本地知识
                                                             方口服制剂中,采用随机函数抽取20种药品,分别查阅
          库。构建过程中,分段标识符选择“##”,分段最大长度
          设置为 4 000 tokens,并设置 100 tokens 的分段重叠长度            其说明书中的 tmax及 t1/2,并将相同问题分别输入药学智
          以确保上下文的连续性。文本向量化采用GLM4,检索                          能问答平台和在线版 DeepSeek 进行对比。结果(表 1)
          方式选择混合检索,使用BGE-Reranker-v2-m3对文本和                  显示,我院药学智能问答平台给出的答案与药品说明书
          向量检索的结果进行语义相似性匹配与重新排序,检索                           完全一致,tmax与t1/2准确率均为100%;而在线版DeepSeek
          结果设置为 Top K=10(即 Score 值排名前 10 位),Score            结果中 tmax 准确率为 30%(6/20),t1/2 准确率为 50%(10/
                                                                                                           2
          阈值设定为0.5,以平衡召回率与准确率。                               20)。二者差异具有统计学意义(tmax准确率比较,χ =
                                                                                           2
          2.5 智能问答工作流的构建                                     21.53,P<0.001;t1/2准确率比较,χ =13.33,P<0.001),
              在Dify平台中构建智能问答工作流,采用Chatflow                   提示该平台在药学参数的检索和回答方面具有较高的
          模式进行流程搭建,工作流包括“开始-问题分类器-知识                         准确性与可靠性。


          中国药房  2026年第37卷第2期                                                 China Pharmacy  2026 Vol. 37  No. 2    · 229 ·
   98   99   100   101   102   103   104   105   106   107   108