Shrijal 2025年3月30日 Claude, Gemini, LLM 阅读需要8分钟 Gemini 25 Pro vs. Claude 3.7 Sonnet Thinking

Google 在3月26日发布了 Gemini 2.5 Pro,声称它在编码、推理和整体性能上都是最好的。但我更关心的是它与现有的最佳编码模型,即2月底发布的 Claude 3.7 Sonnet (thinking) 相比如何,我一直在使用 Claude 3.7 Sonnet,体验非常棒。

让我们比较这两个编码模型,看看我是否需要更换我最喜欢的编码模型,或者 Claude 3.7 是否仍然保持领先地位。

总结

如果你想直接了解结论,我会推荐 Gemini 2.5 Pro,它在编码方面更出色,拥有 100 万的上下文窗口,而 Claude 只有 20 万,而且你可以免费使用它(这是一大优势)。不过,Claude 3.7 Sonnet 也并没有落后太多。尽管如此,在目前这个阶段,使用 Gemini 2.5 Pro 比使用 Claude 3.7 Sonnet 更有意义。

就在不久前,Claude 3.7 Sonnet 还是所有模型比较中的默认选择,并且这种情况持续了相当长的时间。但现在,Gemini 2.5 Pro 领先了。

Gemini 2.5 Pro 简介

Gemini 2.5 Pro 是一款实验性的思维模型,在发布后一周内就成为了热门话题。每个人都在 Twitter (X) 和 YouTube 上谈论这个模型。它真的无处不在,非常火爆。 这是 Google 第一个获得如此多关注的模型。

它也理所当然地成为了 LMArena 的第一名。但这意味着什么呢? 这意味着该模型在编码、数学、科学、图像理解和其他领域都超越了所有其他模型。

Gemini 2.5 Pro 具有 100 万 token 的上下文窗口,并且即将推出 200 万的上下文窗口。🤯

你可以看看像 Theo-t3 这样的其他人在谈论这个模型,以更深入地了解它:

它是目前为止最好的编码模型,在 SWE bench 上的准确率约为 63.8%。这绝对高于我们之前的顶级编码模型 Claude 3.7 Sonnet,其准确率约为 62.3%。

这是 Google 分享的关于使用该模型构建恐龙游戏的快速演示。

这是该模型在推理、数学和科学方面的快速基准测试。这证实了该模型不仅适用于编码,也适用于你的其他需求。 他们声称它是一个全能模型。 🤷‍♂️

这些都很酷,我也会验证这些说法,但在本文中,我将主要比较该模型在编码方面的表现,看看它与 Claude 3.7 Sonnet 相比表现如何。

编码问题

让我们比较这两个模型在编码方面的表现。 我们将进行总共 4 个测试,主要涉及 WebDev、动画和一个棘手的 LeetCode 问题。

1. 飞行模拟器

Prompt: 使用 JavaScript 创建一个简单的飞行模拟器。 该模拟器应该具有一架可以从平坦跑道上起飞的基本飞机。 飞机的移动应通过简单的键盘输入(例如,箭头键或 WASD)来控制。 此外,它还使用块状结构生成一个类似 Minecraft 的基本城市景观。

Gemini 2.5 Pro 的回应

你可以在这里找到它生成的代码:Link

这是程序的输出:

我确实得到了我所要求的,从飞机移动到基本的 Minecraft 风格的块状建筑物,一切都正常运行。 我真的没什么可抱怨的。 这个给 10/10 分。

Claude 3.7 Sonnet 的回应

你可以在这里找到它生成的代码:Link

这是程序的输出:

我看到了一些问题。 飞机明显侧向,我不知道为什么。 再次,一旦它起飞,它就失控了,并且明显地飞到了城市外面。 基本上,我会说我们并没有真正得到一个完全可用的飞行模拟器。

总结:

可以公平地说,Gemini 2.5 确实一次性就做对了。 但是 Claude 3.7 Sonnet 代码的问题并不是很难解决。 是的,我们并没有真正得到预期的输出,而且它肯定不像 Gemini 2.5 Pro 给我们的那样。

2. 魔方解算器

这是 LLM 最难的问题之一。 我已经用许多其他的 LLM 尝试过了,但没有一个能够纠正它。 让我们看看这两个模型是如何解决这个问题的。

Prompt: 使用 Three.js 在 JavaScript 中构建一个简单的 3D 魔方可视化工具和解算器。 魔方应该是一个具有标准颜色的 3×3 魔方。 具有一个随机打乱魔方的“打乱”按钮。 包含一个逐步动画显示解决方案的“解算”功能。 允许使用基本的鼠标控件来旋转视图。

Gemini 2.5 Pro 的回应

你可以在这里找到它生成的代码:Link

这是程序的输出:

令人印象深刻的是,它能一次性完成如此困难的任务。 凭借 100 万 token 的上下文窗口,我真的可以看到这个模型似乎有多么强大。

Claude 3.7 Sonnet 的回应

你可以在这里找到它生成的代码:Link

这是程序的输出:

再次,我有点失望的是,它与其他一些 LLM 存在相同的问题:颜色失败,并且完全无法解决魔方。 我确实试图帮助它找到答案,但这并没有真正帮助。

总结:

Gemini 2.5 Pro 再次领先。 最好的部分是,所有这些都是一次性完成的。 Claude 3.7 真的令人失望,因为它无法正确完成这项任务,尽管它是最好的编码模型之一。

3. 在旋转的 4D 超立方体中弹跳的球

Prompt: 创建一个简单的 JavaScript 脚本,该脚本可视化一个在旋转的 4D 超立方体中弹跳的球。 当球与一个面碰撞时,高亮显示该面以指示撞击。

Gemini 2.5 Pro 的回应

你可以在这里找到它生成的代码:Link

这是程序的输出:

我无法注意到输出中的任何问题。 球和碰撞物理特性都完美运行,甚至包括我要求它突出显示碰撞侧的部分也有效。 这个免费模型似乎非常适合编码。 🔥

Claude 3.7 Sonnet 的回应

你可以在这里找到它生成的代码:Link

这是程序的输出:

哇,终于,Claude 3.7 Sonnet 得到了正确的答案。 它还为每一侧添加了颜色,但是谁要求的呢? 🤷‍♂️ 尽管如此,我在这里真的没什么可抱怨的,因为主要功能似乎运行良好。

总结:

这次答案很明显。 两个模型都得到了正确的答案,实现了我所要求的一切。 我不会真的说我更喜欢 Claude 3.7 Sonnet 的输出,但它肯定比 Gemini 2.5 Pro 付出了更多努力。

4. LeetCode 问题

对于这个问题,让我们做一个快速的 LeetCode 检查,看看这些模型如何处理解决一个棘手的 LeetCode 问题,该问题的通过率仅为 14.9%Maximum Value Sum by Placing 3 Rooks

众所周知,Claude 3.7 Sonnet 非常擅长解决 LC 问题。 如果你想看看 Claude 3.7 如何与 Grok 3o3-mini-high 等顶级模型进行比较,请查看这篇博文:

Claude 3.7 Sonnet vs. Grok 3 vs. o3-mini-high: Coding comparison

Prompt:
You are given a m x n 2D array board representing a chessboard, where board[i][j] represents the value of the cell (i, j).
Rooks in the same row or column attack each other. You need to place three rooks on the chessboard such that the rooks do not attack each other.
Return the maximum sum of the cell values on which the rooks are placed.
Example 1:
Input: board = [[-3,1,1,1],[-3,1,-3,1],[-3,2,1,1]]
Output: 4
Explanation:
We can place the rooks in the cells (0, 2), (1, 3), and (2, 1) for a sum of 1 + 1 + 2 = 4.
Example 2:
Input: board = [[1,2,3],[4,5,6],[7,8,9]]
Output: 15
Explanation:
We can place the rooks in the cells (0, 0), (1, 1), and (2, 2) for a sum of 1 + 5 + 9 = 15.
Example 3:
Input: board = [[1,1,1],[1,1,1],[1,1,1]]
Output: 3
Explanation:
We can place the rooks in the cells (0, 2), (1, 1), and (2, 0) for a sum of 1 + 1 + 1 = 3.
Constraints:
3 <= m == board.length <= 100
3 <= n == board[i].length <= 100
-109 <= board[i][j] <= 109

Gemini 2.5 Pro 的回应

鉴于它如此轻松地回答了我们测试的所有三个编码问题,我对这个模型寄予厚望。

你可以在这里找到它生成的代码:Link

不过,它确实花了一些时间才回答这个问题,而且它编写的代码有点太复杂了,难以理解。 我认为它回答这个问题的方式比需要的更复杂。 但我们主要寻找的是看它是否能正确回答这个问题。

正如预期的那样,它也一次性回答了这个棘手的 LeetCode 问题。 这是我在学习 DSA 时遇到的一个问题。 我不确定我是否对此感到高兴。

Claude 3.7 Sonnet 的回应

我希望这个模型能解决这个问题,因为在我所做的所有其他编码测试中,Claude 3.7 Sonnet 都正确地回答了所有 LeetCode 问题。

你可以在这里找到它生成的代码:Link

它确实编写了正确的代码,但得到了 TLE(Time Limit Exceeded,超时),但如果我要比较代码的简洁性,我会说这个模型使代码更简单且更易于理解。

总结:

Gemini 2.5 得到了正确的答案,并且也在预期的时间复杂度内编写了代码,但是 Claude 3.7 Sonnet 陷入了 TLE。 如果我要比较代码的简洁性,Claude 3.7 生成的代码似乎更好。

结论

对我来说,Gemini 2.5 Pro 是赢家。 我们比较了两个据称最擅长编码的模型。 我在模型统计数据中看到的最大区别只是 Gemini 2.5 Pro 具有稍微更高的上下文窗口,但不要忘记这是一个实验模型,并且仍在改进中。

想象一下这个模型在拥有 200 万 token 的上下文窗口 后的性能。

Google 最近凭借如此强大的模型而大放异彩,之前推出了 Gemma 3 27B 模型,这是一个超轻量级的模型,具有令人难以置信的结果,现在又推出了这款野兽级的模型 Gemini 2.5 Pro。

顺便说一句,如果你在这里,Composio 正在构建代理的技能库。 你可以将 LLM 连接到从 Gmail 到 Asana 的任何应用程序,并快速完成任务。 你可以使用 MCP servers,或者直接以传统的方式将 tools to LLMs 添加到代理中。

发表回复 取消回复

您的电子邮件地址将不会被公开。 必填项已用 * 标注 评论 * 名称 * 电子邮件 * 网站 在此浏览器中保存我的姓名、电子邮件和网站,以便下次发表评论。

订阅新闻邮件

资源
产品
公司

Composio

Composio MCP ➔

AgentAuth ➔

SWE-Kit ➔

SDR Kit ➔

AI Crypto Kit ➔

  * [ ](https://composio.dev/blog/gemini-2-5-pro-vs-claude-3-7-sonnet-coding-comparison/<https:/github.com/composiohq/composio/>)
  * [ ](https://composio.dev/blog/gemini-2-5-pro-vs-claude-3-7-sonnet-coding-comparison/<https:/dub.composio.dev/discord>)
  * [ ](https://composio.dev/blog/gemini-2-5-pro-vs-claude-3-7-sonnet-coding-comparison/<https:/www.youtube.com/@Composio>)

Solutions

Enterprise ➔

Agency ➔

Startups Program ➔

Need Custom Solution? We also provide custom solutions for your business needs Talk to us Why Composio Integration for AI & LLMs Connect over 250 apps effortlessly 24/7 Support

Log In

Sign In