lechmazur / elimination_game Public

一个多人淘汰赛基准,用于测试 LLM 在社交推理、策略和欺骗方面的能力。玩家参与公开和私下的对话,组成联盟,并投票淘汰彼此,直到只剩下两名玩家。然后,被淘汰的玩家组成的评审团进行决定性的投票,以加冕获胜者。

114 stars 4 forks Branches Tags Activity

Elimination Game Benchmark:多智能体 LLM 动态中的社交推理、策略和欺骗

Elimination Game 是一种多人淘汰赛,用于测试 LLM 在社交推理、策略和欺骗方面的能力。玩家参与公开和私下的对话,组成联盟,并逐轮投票淘汰彼此,直到只剩下两名玩家。然后,由被淘汰玩家组成的陪审团进行决定性投票,以选出获胜者。这个基准超越了简单的对话,创造了一个丰富的环境,模型必须在其中导航:

通过分析对话记录、投票模式和最终排名,我们揭示了语言模型如何管理共享知识隐藏意图,建立联盟或在合适的时机背后捅刀

动画

vs_detail1_output.mp4

我们提供逐轮回放,可视化:

更长的视频:

Elimination Game Benchmark: Social Reasoning, Strategy, and Deception in Multi-Agent LLM Dynamics. Frame-by-frame replay of each game

可视化 & 指标

TrueSkill 排行榜 (μ ± σ)

一个水平条形图,显示每个模型的技术等级,按 μ 从上到下排序。反映了在持久战或获胜中的整体一致性。

Scoreboard

按模型划分的排名分布

一个分组条形图,显示每个模型获得第 1 名到第 8 名的频率。识别那些经常获胜或早期被淘汰的人。

Rank distribution by model

按模型划分的伙伴背叛率(背叛者角度)

一个条形图,显示每个模型背叛任何私人聊天伙伴的频率。较高的条表示更大的背叛倾向。

Buddy Betrail Rate By Model

按受害者划分的伙伴背叛率(被背叛者角度)

一个从接收端的条形图:哪些模型在私人聊天后最常被背叛。

Buddy Betrayal Rate by Victim

第一名次数

一个水平条形图,显示每个模型在所有出场中获得正好第 1 名(冠军)的次数。

First Place Count

最早出局次数

一个补充视图:每个模型成为第一个被淘汰席位的频率。高值表明该模型经常在早期被针对,可能是由于糟糕的联盟或具有威胁性的策略。

Earliest Out Count

进入前 2 → 获胜率

一个图表,显示每个模型在进入前 2 名后获胜的频率。展示了在说服陪审团(被淘汰的玩家)或在最后的平局中幸存下来的修辞能力。

Final 2 to Win Rate

模型冗余度

一个水平条形图,按每条消息的平均字数对每个模型进行排名——突出了话多的或简洁的沟通者。

Model Wordiness

方法总结

玩家 & 设置

回合结构

  1. 公共子回合(最多 80 个字):每个人公开说一次。
  2. 偏好排名:每个席位对其他席位进行排名以进行私人配对。
  3. 三个私人子回合(最多 70、50、30 个字):形成配对,交换消息,可能建立联盟。
  4. 投票:每个席位秘密投票淘汰某人。平局会触发决胜声明和重新投票。如果仍然平局,则使用到目前为止的累计投票。如果仍然平局,则随机。
  5. 淘汰:获得最多票数的席位出局。

这个过程持续到剩下 2 个

最终场景

评分 & TrueSkill

Elimination Game 排行榜

| 排名 | 模型 | μ | σ | Exposed | 游戏数 | 点数 | 比率 | | ---- | ----------------------------- | ----- | ----- | ------- | ------ | ------- | ------- | | 1 | GPT-4.5 Preview | 6.353 | 0.262 | 6.353 | 341 | 206.286 | 0.605 | | 2 | Claude 3.7 Sonnet Thinking 16K | 6.325 | 0.279 | 6.325 | 305 | 182.143 | 0.597 | | 3 | Gemini 2.5 Pro Exp 03-25 | 6.203 | 0.448 | 6.203 | 118 | 69.429 | 0.588 | | 4 | Claude 3.5 Sonnet 2024-10-22 | 6.144 | 0.219 | 6.144 | 495 | 293.857 | 0.594 | | 5 | Claude 3.7 Sonnet | 5.849 | 0.264 | 5.849 | 332 | 187.571 | 0.565 | | 6 | DeepSeek R1 | 5.528 | 0.226 | 5.528 | 465 | 252.571 | 0.543 | | 7 | o3-mini (medium reasoning) | 5.477 | 0.232 | 5.477 | 435 | 235.714 | 0.542 | | 8 | Mistral Large 2 | 5.326 | 0.220 | 5.326 | 480 | 257.714 | 0.537 | | 9 | DeepSeek-V3 | 5.216 | 0.217 | 5.216 | 497 | 262.143 | 0.527 | | 10 | o1 (medium reasoning) | 4.969 | 0.231 | 4.969 | 436 | 222.286 | 0.510 | | 11 | MiniMax-Text-01 | 4.898 | 0.206 | 4.898 | 540 | 273.000 | 0.506 | | 12 | Amazon Nova Pro | 4.832 | 0.217 | 4.832 | 487 | 243.429 | 0.500 | | 13 | Grok 2 12-12 | 4.765 | 0.217 | 4.765 | 494 | 244.571 | 0.495 | | 14 | Mistral Small 3 | 4.744 | 0.217 | 4.744 | 491 | 243.857 | 0.497 | | 15 | GPT-4o Feb 2025 | 4.713 | 0.218 | 4.713 | 491 | 241.000 | 0.491 | | 16 | Llama 3.3 70B | 4.617 | 0.213 | 4.617 | 509 | 248.571 | 0.488 | | 17 | GPT-4o mini | 4.527 | 0.236 | 4.527 | 410 | 195.429 | 0.477 | | 18 | Microsoft Phi-4 | 4.456 | 0.216 | 4.456 | 497 | 232.429 | 0.468 | | 19 | Claude 3.5 Haiku | 4.249 | 0.214 | 4.249 | 504 | 230.429 | 0.457 | | 20 | Llama 3.1 405B | 4.239 | 0.223 | 4.239 | 470 | 217.143 | 0.462 | | 21 | Gemini 2.0 Pro Exp 02-05 | 4.222 | 0.218 | 4.222 | 498 | 228.714 | 0.459 | | 22 | Gemini 2.0 Flash Think Exp 01-21 | 4.066 | 0.221 | 4.066 | 490 | 222.429 | 0.454 | | 23 | Qwen 2.5 Max | 3.338 | 0.280 | 3.338 | 303 | 119.143 | 0.393 | | 24 | Qwen QwQ-32B 16K | 3.077 | 0.368 | 3.077 | 179 | 68.286 | 0.381 | | 25 | Gemini 2.0 Flash | 3.055 | 0.221 | 3.055 | 486 | 183.143 | 0.377 |

仅公开版本

我们还评估了只有公开声明的游戏版本。

scoreboard_trueskill

有趣的涌现文本示例

以下是来自日志的真实引言: