Gemini 2.5

Source | HN Comments

文章介绍了 **Gemini 2.5**，这是最新的 AI 模型，重点是其增强的推理和代码能力。**Gemini 2.5 Pro Experimental** 在基准测试中表现出色，尤其在推理、编码、数学和科学方面。该模型提供 100 万 token 的上下文窗口，并将在 Google AI Studio、Gemini app 和 Vertex AI 上推出。文章还强调了其在生成 Web 应用和 agentic 代码方面的优势。

Gemini 2.5：我们最智能的 AI 模型

[{"model": "blogsurvey.survey", "pk": 7, "fields": {"name": "Article Improvements - March 2025", "survey_id": "article-improvements-march-2025_250321", "scroll_depth_trigger": 75, "previous_survey": null, "display_rate": 75, "thank_message": "Thank you!", "thank_emoji": "✅", "questions": "[{"id": "5a12fd89-d978-4a1b-80e5-2442a91422be", "type": "simple_question", "value": {"question": "How could we improve this article?", "responses": [{"id": "30122b0d-1169-4376-af7c-20c9de52c91c", "type": "item", "value": "Make it more concise"}, {"id": "18f3016a-7235-468b-b246-ffe974911ae9", "type": "item", "value": "Add more detail"}, {"id": "5d19c11d-6a61-49d3-9f1d-dad5d661ba4f", "type": "item", "value": "Make it easier to understand"}, {"id": "97064d1f-d9af-4a83-a44f-a84f8ed899d6", "type": "item", "value": "Include more images or videos"}, {"id": "a9ec2a70-c7c5-4f00-a179-31a7b5641879", "type": "item", "value": "It's fine the way it is"}]}}]", "target_article_pages": true}}]

2025 年 3 月 25 日 · 阅读时长 3 分钟分享 Twitter Facebook LinkedIn Mail 复制链接

Gemini 2.5 是一种思维模型，旨在解决日益复杂的问题。我们的第一个 2.5 模型，Gemini 2.5 Pro Experimental，在常见的基准测试中取得了显著优势，并展示了强大的推理和代码能力。

koray

Koray Kavukcuoglu Google DeepMind 的 CTO

分享 Twitter Facebook LinkedIn Mail 复制链接 Five glowing blue rectangles, decreasing in size, angled diagonally across a dark background, suggesting depth and layers.

本文内容:

今天，我们推出 Gemini 2.5，我们最智能的 AI 模型。我们的第一个 2.5 版本是 2.5 Pro 的实验版本，它在一系列基准测试中处于领先地位，并在 LMArena 上以显著优势位居榜首。

Gemini 2.5 models 是思维模型，能够在响应之前推理思考过程，从而提高性能和准确性。

在 AI 领域，系统的“推理”能力不仅仅是指分类和预测，它指的是系统分析信息、得出逻辑结论、融入上下文和细微差别以及做出明智决策的能力。

长期以来，我们一直在探索使 AI 更智能、更具推理能力的方法，例如强化学习和 chain-of-thought prompting 等技术。在此基础上，我们最近推出了我们的第一个思维模型 Gemini 2.0 Flash Thinking。

现在，借助 Gemini 2.5，我们通过将显著增强的基础模型与改进的训练后处理相结合，实现了新的性能水平。展望未来，我们将把这些思维能力直接构建到我们所有的模型中，以便它们能够处理更复杂的问题并支持更强大、更具上下文意识的代理。

Introducing Gemini 2.5 Pro

Gemini 2.5 Pro Experimental 是我们用于复杂任务的最先进的模型。它在 LMArena 排行榜（衡量人类偏好）上名列前茅，优势明显，表明该模型功能强大且具有高质量的风格。2.5 Pro 还显示出强大的推理和代码能力，在常见的编码、数学和科学基准测试中处于领先地位。

Gemini 2.5 Pro 现在可在 Google AI Studio 和 Gemini app 中面向 Gemini Advanced 用户提供，并将很快在 Vertex AI 上推出。我们还将在未来几周内推出定价，使人们能够以更高的速率限制使用 2.5 Pro 进行大规模生产使用。

增强的推理能力

Gemini 2.5 Pro 在一系列需要高级推理的基准测试中处于领先地位。在没有像多数投票这样会增加成本的测试时间技术的情况下，2.5 Pro 在 GPQA 和 AIME 2025 等数学和科学基准测试中处于领先地位。

它还在 Humanity’s Last Exam（由数百名主题专家设计的数据集，旨在捕捉人类知识和推理的前沿）上获得了 18.8% 的最先进得分，而且没有使用工具。

高级编码

我们一直专注于编码性能，并且借助 Gemini 2.5，我们实现了比 2.0 的巨大飞跃——未来还将有更多改进。2.5 Pro 擅长创建具有视觉吸引力的 Web 应用程序和 agentic 代码应用程序，以及代码转换和编辑。在 SWE-Bench Verified（agentic 代码评估的行业标准）上，Gemini 2.5 Pro 在自定义代理设置下获得 63.8% 的分数。

这是一个 2.5 Pro 如何使用其推理能力通过从单行提示生成可执行代码来创建视频游戏的示例。

Animation of dinosaur game made with Gemini 00:00

基于最好的 Gemini 构建

Gemini 2.5 基于使 Gemini 模型变得出色的特性而构建 - 原生多模态和长上下文窗口。2.5 Pro 今天提供 100 万个 token 的上下文窗口（即将推出 200 万个），具有强大的性能，并且比前几代产品有所改进。它可以理解大量数据集并处理来自不同信息来源的复杂问题，包括文本、音频、图像、视频，甚至整个代码存储库。

开发人员和企业可以立即开始在 Google AI Studio 中试验 Gemini 2.5 Pro，并且 Gemini Advanced 用户可以在桌面和移动设备上的模型下拉列表中选择它。它将在未来几周内在 Vertex AI 上提供。

与往常一样，我们欢迎反馈，以便我们能够继续快速改进 Gemini 令人印象深刻的新功能，所有这些都以使我们的 AI 更有帮助为目标。

发布于：