LLM 在多轮对话中迷失方向

LLMs Get Lost in Multi-Turn Conversation

Source | HN Comments

该研究探讨了大型语言模型 (LLMs) 在多轮对话中的表现。实验表明，顶级 LLMs 在多轮对话中的性能明显低于单轮对话，平均下降39%。分析发现，LLMs 容易在早期轮次中做出错误假设，过早生成解决方案，导致“迷失方向”且难以纠正。这意味着 LLMs 在处理需要多轮交互的任务时，可靠性有待提高。

Computer Science > Computation and Language

arXiv:2505.06120 (cs) [Submitted on 9 May 2025]

Title:LLMs Get Lost In Multi-Turn Conversation

Authors:Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, Jennifer Neville

查看由 Philippe Laban 和其他 3 位作者撰写的名为 LLMs Get Lost In Multi-Turn Conversation 的论文 PDF 版本。 View PDF HTML (experimental)

摘要：大型语言模型 (LLMs) 是会话接口。因此，LLMs 不仅有潜力在用户能够完全指定手头任务时为其提供帮助，而且还有助于他们通过多轮会话交流来定义、探索和完善自身需求。尽管对 LLM 会话日志的分析已证实，用户指令中经常出现欠规范的情况，但 LLM 评估主要侧重于单轮、完全指定的指令设置。在这项工作中，我们进行了大规模的模拟实验，以比较 LLM 在单轮和多轮设置中的性能。我们的实验证实，我们测试的所有顶级开放和封闭权重 LLMs 在多轮对话中的性能均明显低于单轮对话，在六个生成任务中平均下降了 39%。对 200,000 多个模拟对话的分析将性能下降分解为两个组成部分：能力的小幅下降和可靠性的显着增加。我们发现 LLMs 经常在早期轮次中做出假设，并过早地尝试生成最终解决方案，过度依赖这些解决方案。简而言之，我们发现当 LLMs 在对话中走错方向时，它们会迷失方向并且无法恢复。 Subjects: | Computation and Language (cs.CL); Human-Computer Interaction (cs.HC)
---|---
Cite as: | arXiv:2505.06120 [cs.CL]
(or arXiv:2505.06120v1 [cs.CL] for this version)
https://doi.org/10.48550/arXiv.2505.06120 Focus to learn more arXiv-issued DOI via DataCite

Submission history

From: Philippe Laban [view email] [v1] Fri, 9 May 2025 15:21:44 UTC (1,496 KB) Full-text links:

Access Paper:

View a PDF of the paper titled LLMs Get Lost In Multi-Turn Conversation, by Philippe Laban and 3 other authors