Mayo Clinic对抗 AI 幻觉的秘密武器:Reverse RAG 实战
Mayo Clinic对抗 AI 幻觉的秘密武器:Reverse RAG 实战
Taryn Plumb@taryn_plumb 2025年3月7日 上午8:31
VentureBeat/Ideogram
订阅我们的每日和每周新闻通讯,获取关于行业领先的 AI 报道的最新更新和独家内容。了解更多
即使大型语言模型 (LLMs) 变得越来越复杂和强大,它们仍然会产生幻觉:提供不准确的信息,或者更严厉地说,撒谎。
这在医疗保健等领域尤其有害,因为错误的信息可能会导致可怕的后果。
Mayo Clinic 是美国顶尖的医院之一,它采用了一种新颖的技术来应对这一挑战。为了成功,该医疗机构必须克服检索增强生成 (RAG) 的局限性。RAG 是一种大型语言模型 (LLMs) 从特定的相关数据源提取信息的过程。该医院采用了基本上是反向 RAG 的方法,即模型提取相关信息,然后将每个数据点链接回其原始来源内容。
值得注意的是,这几乎消除了非诊断用例中所有基于数据检索的幻觉——使得 Mayo 能够在临床实践中推广该模型。
“通过这种通过链接引用来源信息的方法,数据的提取不再是问题,”Mayo 的战略医学主任兼放射学主席 Matthew Callstrom 告诉 VentureBeat。
解释每一个数据点
处理医疗保健数据是一项复杂的挑战,并且会耗费大量时间。尽管电子健康记录 (EHRs) 中收集了大量数据,但数据可能非常难以查找和解析。
Mayo 在处理所有这些数据方面,AI 的首个用例是出院总结(包含出院后护理提示的就诊总结),其模型使用传统的 RAG。正如 Callstrom 解释的那样,这是一个自然的起点,因为它涉及简单的提取和总结,而这正是 LLMs 通常擅长的。
他说:“在第一阶段,我们并没有试图做出诊断,例如询问模型‘对于当前这位患者,下一步最佳措施是什么?’”
幻觉的危险性也不如医生辅助场景那么重要;但这并不是说数据检索错误并不令人费解。
Callstrom 说:“在我们的前几次迭代中,我们遇到了一些你显然无法容忍的有趣的幻觉——例如,患者的年龄错误。所以你必须仔细构建它。”
虽然 RAG 一直是 grounding LLMs(提高其能力)的关键组成部分,但该技术有其局限性。模型可能会检索到不相关、不准确或低质量的数据;无法确定信息是否与人类的提问相关;或者创建与请求格式不匹配的输出(例如,返回简单的文本而不是详细的表格)。
虽然有一些解决这些问题的方法——例如 graph RAG,它利用知识图谱来提供上下文,或者 corrective RAG (CRAG),其中评估机制评估检索到的文档的质量——但幻觉并没有消失。
引用每一个数据点
这就是反向 RAG 过程发挥作用的地方。具体来说,Mayo 将所谓的使用代表聚类 (CURE) 算法与 LLMs 和向量数据库相结合,以仔细检查数据检索。
聚类对于机器学习 (ML) 至关重要,因为它根据数据点的相似性或模式来组织、分类和分组数据点。这基本上有助于模型“理解”数据。CURE 通过分层技术超越了典型的聚类,使用距离度量来根据邻近度对数据进行分组(可以这样理解:彼此之间距离较近的数据比距离较远的数据更相关)。该算法能够检测“异常值”,即与其余数据点不匹配的数据点。
通过将 CURE 与反向 RAG 方法相结合,Mayo 的 LLM 将其生成的摘要拆分为单个事实,然后将这些事实与源文档进行匹配。然后,第二个 LLM 评估这些事实与这些来源的一致程度,特别是两者之间是否存在因果关系。
Callstrom 说:“任何数据点都会被引用回原始实验室源数据或影像报告。该系统确保引用是真实的并且检索准确,从而有效地解决了大多数与检索相关的幻觉。”
Callstrom 的团队使用向量数据库来首先摄取患者记录,以便模型可以快速检索信息。他们最初使用本地数据库进行概念验证 (POC);生产版本是一个通用数据库,其逻辑位于 CURE 算法本身中。
“医生非常怀疑,他们希望确保不会被提供不可信的信息,”Callstrom 解释说。“因此,对我们来说,信任意味着验证任何可能作为内容呈现的东西。”
在 Mayo 的实践中引起了“极大的兴趣”
CURE 技术已被证明对于合成新的患者记录也很有用。Callstrom 解释说,详细描述患者复杂问题的外部记录可能包含不同格式的“大量”数据内容。需要对这些内容进行审查和总结,以便临床医生在第一次见到患者之前熟悉情况。
他说:“我总是将外部医疗记录描述为有点像电子表格:你不知道每个单元格中有什么,你必须查看每个单元格才能提取内容。”
但是现在,LLM 会进行提取、对材料进行分类并创建患者概览。Callstrom 说,通常,这项任务可能会占用从业者每天大约 90 分钟的时间,但 AI 可以在大约 10 分钟内完成。
他描述了在 Mayo 的实践中扩展这项能力以帮助减轻行政负担和挫败感的“极大的兴趣”。
他说:“我们的目标是简化内容的处理——我如何增强医生的能力并简化他们的工作?”
利用 AI 解决更复杂的问题
当然,Callstrom 和他的团队看到了 AI 在更高级领域的巨大潜力。例如,他们与 Cerebras Systems 合作构建了一个基因组模型,用于预测哪种关节炎治疗方法对患者最有效,并且还与 Microsoft 合作开发图像编码器和影像基础模型。
他们与 Microsoft 的第一个影像项目是胸部 X 光片。到目前为止,他们已经转换了 150 万张 X 光片,并计划在下一轮中再转换 1100 万张。Callstrom 解释说,构建图像编码器并不是非常困难;复杂性在于使生成的图像真正有用。
理想情况下,目标是简化 Mayo 医生查看胸部 X 光片的方式并增强他们的分析。例如,AI 可能会识别出他们应该在哪里插入气管插管或中心静脉导管以帮助患者呼吸。“但这可能更广泛,”Callstrom 说。例如,医生可以解锁其他内容和数据,例如从胸部 X 光片简单预测射血分数——或从心脏泵出的血液量。
他说:“现在你可以开始考虑更大规模的治疗反应预测。”
Mayo 还在基因组学(DNA 研究)以及其他“组学”领域(例如蛋白质组学(蛋白质研究))中看到了“令人难以置信的机会”。AI 可以支持基因转录(复制 DNA 序列的过程),以创建与其他患者的参考点,并帮助建立复杂疾病的风险概况或治疗途径。
Callstrom 解释说:“所以你基本上是将患者与其他患者进行映射,围绕一个队列构建每个患者。这就是个性化医疗真正提供的:‘你看起来像这些其他患者,这是我们应该对待你的方式,以看到预期的结果。’目标实际上是在我们使用这些工具时,将人性回归到医疗保健中。”
但 Callstrom 强调说,诊断方面的所有工作都需要做更多的工作。证明基因组学的基础模型适用于类风湿性关节炎是一回事;在临床环境中实际验证它又是另一回事。研究人员必须从测试小型数据集开始,然后逐步扩大测试组并与传统或标准疗法进行比较。
他指出:“你不会立即说,‘嘿,让我们跳过氨甲喋呤(一种常用的类风湿性关节炎药物)’。”
最终:“我们认识到这些[模型]具有令人难以置信的能力,可以真正改变我们照顾患者和以有意义的方式进行诊断的方式,从而获得更多以患者为中心或以患者为特定的护理,而不是标准疗法,”Callstrom 说。“我们在患者护理中处理的复杂数据是我们关注的焦点。”