UCSD研究:大型语言模型通过图灵测试
arXiv:2503.23674 (cs) [提交于2025年3月31日]
标题: Large Language Models Pass the Turing Test
作者: Cameron R. Jones, Benjamin K. Bergen
查看 Cameron R. Jones 和 Benjamin K. Bergen 撰写的论文 Large Language Models Pass the Turing Test 的 PDF 版本。
摘要:我们评估了4个系统 (ELIZA, GPT-4o, LLaMa-3.1-405B, 和 GPT-4.5) 在两个随机、对照和预先注册的图灵测试中,这些测试针对独立的参与者群体。参与者与另一个人类参与者和其中一个系统同时进行5分钟的对话,然后判断他们认为哪个对话伙伴是人类。当被提示采用类似人类的角色时,GPT-4.5 有73% 的时间被判断为人类,明显高于审讯者选择真实人类参与者的频率。LLaMa-3.1 在同样的提示下,有 56% 的时间被判断为人类,与被比较的人类相比,被判断为人类的几率没有显著差异。而基线模型 (ELIZA 和 GPT-4o) 的成功率明显低于随机水平(分别为23%和21%)。这些结果构成了首个经验证据,证明任何人工智能系统都通过了标准的三个参与方的图灵测试。这些结果对关于大型语言模型 (LLMs) 所表现出的智能类型,以及这些系统可能产生的社会和经济影响的辩论具有重要意义。
主题: | 计算与语言 (cs.CL); 人机交互 (cs.HC) ---|--- 引用为: | arXiv:2503.23674 [cs.CL] (或 arXiv:2503.23674v1 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2503.23674 通过DataCite 了解更多关于arXiv 发布的DOI 的信息 (等待注册)
提交历史
来自: Cameron Jones [查看邮件] [v1] 2025年3月31日 02:37:45 UTC (36,820 KB)
全文链接:
访问论文:
查看 Cameron R. Jones 和 Benjamin K. Bergen 撰写的论文 Large Language Models Pass the Turing Test 的 PDF 版本。