使用 Gemini 2.5 Flash 开始构建应用

Gemini 2.5 Flash

Source | HN Comments

文章发布了 Gemini 2.5 Flash 的早期版本，可通过 [Google AI Studio](https://developers.googleblog.com/en/start-building-with-gemini-25-flash/) 和 [Vertex AI](https://developers.googleblog.com/en/start-building-with-gemini-25-flash/) 访问。该模型在速度和成本方面保持优势，并增强了推理能力。 2.5 Flash 引入了“思考”功能，允许模型在响应前进行推理，提高复杂任务的准确性。开发者可以设置“思考预算”来控制推理的tokens数量，平衡质量、成本和延迟。即使关闭思考，也能保持 2.0 Flash 的速度。

[中文正文内容]

今天，我们通过 Gemini API 在预览版中推出 Gemini 2.5 Flash 的早期版本，该版本可通过 Google AI Studio 和 Vertex AI 访问。在 2.0 Flash 的流行基础上，这个新版本在推理能力方面进行了重大升级，同时仍然优先考虑速度和成本。 Gemini 2.5 Flash 是我们的第一个完全混合推理模型，使开发人员能够打开或关闭思考功能。该模型还允许开发人员设置思考预算，以找到质量、成本和延迟之间的正确权衡。即使关闭思考，开发人员也可以保持 2.0 Flash 的快速速度，并提高性能。

我们的 Gemini 2.5 模型是思考模型，能够在响应之前推理他们的想法。该模型无需立即生成输出，而是可以执行“思考”过程，以更好地理解提示、分解复杂任务和计划响应。在需要多个推理步骤的复杂任务（例如解决数学问题或分析研究问题）中，思考过程使模型能够得出更准确和更全面的答案。事实上，Gemini 2.5 Flash 在 LMArena 中的 Hard Prompts 上表现强劲，仅次于 2.5 Pro。

Comparison table showing price and performance metrics for LLMs

2.5 Flash 在成本和规模方面与其他领先模型具有可比的指标。

我们最具成本效益的思考模型

2.5 Flash 继续保持领先地位，成为性价比最高的模型。

Gemini 2.5 Flash price-to-performance comparison

Gemini 2.5 Flash 在 Google 的成本与质量的 Pareto 前沿中添加了另一个模型。*

用于管理思考的细粒度控制

我们知道不同的用例在质量、成本和延迟方面有不同的权衡。为了给开发人员提供灵活性，我们启用了思考预算的设置，该预算可以对模型在思考时可以生成的最tokens数进行细粒度控制。更高的预算允许模型进一步推理以提高质量。但重要的是，预算设置了 2.5 Flash 可以思考多少的上限，但如果提示不需要，模型不会使用全部预算。

Plot graphs show improvements in reasoning quality as thinking budget increases

随着思考预算的增加，推理质量得到提高。

该模型经过训练，知道给定提示应该思考多长时间，因此会根据感知的任务复杂性自动决定思考多少。

如果您希望保持最低的成本和延迟，同时仍然提高 2.0 Flash 的性能，请将思考预算设置为 0。您还可以选择为思考阶段设置特定的 token 预算，方法是使用 API 中的参数或 Google AI Studio 和 Vertex AI 中的滑块。 2.5 Flash 的预算范围为 0 到 24576 个 tokens。

以下提示说明了 2.5 Flash 的默认模式下可能使用的推理量。

需要低推理的提示：

示例 1： 西班牙语的“谢谢” 示例 2： 加拿大有多少个省？

需要中等推理的提示：

示例 1： 你掷了两个骰子。它们加起来是 7 的概率是多少？ 示例 2： 我的健身房在周一、周三和周五的上午 9 点至下午 3 点，以及周二和周六的下午 2 点至晚上 8 点提供篮球的 Pick Up 时段。如果我每周工作 5 天，每天工作 9-6 点，并且想在工作日打 5 个小时的篮球，请为我制定一个时间表，以便一切顺利进行。

需要高推理的提示：

示例 1： 长度为 L=3m 的悬臂梁具有矩形横截面（宽度 b=0.1m，高度 h=0.2m），由钢（E=200 GPa）制成。它在其整个长度上承受均匀分布的载荷 w=5 kN/m，并在其自由端承受点载荷 P=10 kN。计算最大弯曲应力 (σ_max)。 示例 2： 编写一个函数evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]，该函数计算电子表格单元格的值。

每个单元格包含：

一个数字（例如，"3"）
或者像"=A1 + B1 * 2"这样的公式，使用+、-、*、/和其他单元格。

要求：

解决单元格之间的依赖关系。
处理运算符优先级（*/在+-之前）。
检测循环并引发ValueError("Cycle detected at <cell>")。
没有eval()。仅使用内置库。

立即开始使用 Gemini 2.5 Flash 构建应用

具有思考功能的 Gemini 2.5 Flash 现在可通过 Google AI Studio 和 Vertex AI中的 Gemini API，以及 Gemini app 中的专用下拉菜单中以预览版提供。我们鼓励您尝试thinking_budget参数，并探索可控制的推理如何帮助您解决更复杂的问题。

from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
 model="gemini-2.5-flash-preview-04-17",
 contents="You roll two dice. What’s the probability they add up to 7?",
 config=genai.types.GenerateContentConfig(
  thinking_config=genai.types.ThinkingConfig(
   thinking_budget=1024
  )
 )
)
print(response.text)

在我们的开发者文档中查找详细的 API 参考和思考指南，或从 Gemini Cookbook 获取代码示例开始。

我们将继续改进 Gemini 2.5 Flash，更多功能即将推出，然后我们将其普遍提供以用于全面生产用途。

*模型定价来自 Artificial Analysis & Company Documentati