[中文正文内容]

今天,我们通过 Gemini API 在预览版中推出 Gemini 2.5 Flash 的早期版本,该版本可通过 Google AI StudioVertex AI 访问。 在 2.0 Flash 的流行基础上,这个新版本在推理能力方面进行了重大升级,同时仍然优先考虑速度和成本。 Gemini 2.5 Flash 是我们的第一个完全混合推理模型,使开发人员能够打开或关闭思考功能。 该模型还允许开发人员设置思考预算,以找到质量、成本和延迟之间的正确权衡。 即使关闭思考,开发人员也可以保持 2.0 Flash 的快速速度,并提高性能。

我们的 Gemini 2.5 模型是思考模型,能够在响应之前推理他们的想法。 该模型无需立即生成输出,而是可以执行“思考”过程,以更好地理解提示、分解复杂任务和计划响应。 在需要多个推理步骤的复杂任务(例如解决数学问题或分析研究问题)中,思考过程使模型能够得出更准确和更全面的答案。 事实上,Gemini 2.5 Flash 在 LMArena 中的 Hard Prompts 上表现强劲,仅次于 2.5 Pro。

Comparison table showing price and performance metrics for LLMs

2.5 Flash 在成本和规模方面与其他领先模型具有可比的指标。

我们最具成本效益的思考模型

2.5 Flash 继续保持领先地位,成为性价比最高的模型。

Gemini 2.5 Flash price-to-performance comparison

Gemini 2.5 Flash 在 Google 的成本与质量的 Pareto 前沿中添加了另一个模型。*

用于管理思考的细粒度控制

我们知道不同的用例在质量、成本和延迟方面有不同的权衡。 为了给开发人员提供灵活性,我们启用了思考预算的设置,该预算可以对模型在思考时可以生成的最tokens数进行细粒度控制。 更高的预算允许模型进一步推理以提高质量。 但重要的是,预算设置了 2.5 Flash 可以思考多少的上限,但如果提示不需要,模型不会使用全部预算。

Plot graphs show improvements in reasoning quality as thinking budget increases

随着思考预算的增加,推理质量得到提高。

该模型经过训练,知道给定提示应该思考多长时间,因此会根据感知的任务复杂性自动决定思考多少。

如果您希望保持最低的成本和延迟,同时仍然提高 2.0 Flash 的性能,请将思考预算设置为 0。 您还可以选择为思考阶段设置特定的 token 预算,方法是使用 API 中的参数或 Google AI Studio 和 Vertex AI 中的滑块。 2.5 Flash 的预算范围为 0 到 24576 个 tokens。

以下提示说明了 2.5 Flash 的默认模式下可能使用的推理量。

需要低推理的提示:

示例 1: 西班牙语的“谢谢” 示例 2: 加拿大有多少个省?

需要中等推理的提示:

示例 1: 你掷了两个骰子。 它们加起来是 7 的概率是多少? 示例 2: 我的健身房在周一、周三和周五的上午 9 点至下午 3 点,以及周二和周六的下午 2 点至晚上 8 点提供篮球的 Pick Up 时段。 如果我每周工作 5 天,每天工作 9-6 点,并且想在工作日打 5 个小时的篮球,请为我制定一个时间表,以便一切顺利进行。

需要高推理的提示:

示例 1: 长度为 L=3m 的悬臂梁具有矩形横截面(宽度 b=0.1m,高度 h=0.2m),由钢(E=200 GPa)制成。 它在其整个长度上承受均匀分布的载荷 w=5 kN/m,并在其自由端承受点载荷 P=10 kN。 计算最大弯曲应力 (σ_max)。 示例 2: 编写一个函数evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],该函数计算电子表格单元格的值。

每个单元格包含:

要求:

立即开始使用 Gemini 2.5 Flash 构建应用

具有思考功能的 Gemini 2.5 Flash 现在可通过 Google AI StudioVertex AI中的 Gemini API,以及 Gemini app 中的专用下拉菜单中以预览版提供。 我们鼓励您尝试thinking_budget参数,并探索可控制的推理如何帮助您解决更复杂的问题。

from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
 model="gemini-2.5-flash-preview-04-17",
 contents="You roll two dice. What’s the probability they add up to 7?",
 config=genai.types.GenerateContentConfig(
  thinking_config=genai.types.ThinkingConfig(
   thinking_budget=1024
  )
 )
)
print(response.text)

在我们的开发者文档中查找详细的 API 参考和思考指南,或从 Gemini Cookbook 获取代码示例开始。

我们将继续改进 Gemini 2.5 Flash,更多功能即将推出,然后我们将其普遍提供以用于全面生产用途。

*模型定价来自 Artificial Analysis & Company Documentati