使用 Gemini 2.5 Flash 开始构建应用
[中文正文内容]
今天,我们通过 Gemini API 在预览版中推出 Gemini 2.5 Flash 的早期版本,该版本可通过 Google AI Studio 和 Vertex AI 访问。 在 2.0 Flash 的流行基础上,这个新版本在推理能力方面进行了重大升级,同时仍然优先考虑速度和成本。 Gemini 2.5 Flash 是我们的第一个完全混合推理模型,使开发人员能够打开或关闭思考功能。 该模型还允许开发人员设置思考预算,以找到质量、成本和延迟之间的正确权衡。 即使关闭思考,开发人员也可以保持 2.0 Flash 的快速速度,并提高性能。
我们的 Gemini 2.5 模型是思考模型,能够在响应之前推理他们的想法。 该模型无需立即生成输出,而是可以执行“思考”过程,以更好地理解提示、分解复杂任务和计划响应。 在需要多个推理步骤的复杂任务(例如解决数学问题或分析研究问题)中,思考过程使模型能够得出更准确和更全面的答案。 事实上,Gemini 2.5 Flash 在 LMArena 中的 Hard Prompts 上表现强劲,仅次于 2.5 Pro。
2.5 Flash 在成本和规模方面与其他领先模型具有可比的指标。
我们最具成本效益的思考模型
2.5 Flash 继续保持领先地位,成为性价比最高的模型。
Gemini 2.5 Flash 在 Google 的成本与质量的 Pareto 前沿中添加了另一个模型。*
用于管理思考的细粒度控制
我们知道不同的用例在质量、成本和延迟方面有不同的权衡。 为了给开发人员提供灵活性,我们启用了思考预算的设置,该预算可以对模型在思考时可以生成的最tokens数进行细粒度控制。 更高的预算允许模型进一步推理以提高质量。 但重要的是,预算设置了 2.5 Flash 可以思考多少的上限,但如果提示不需要,模型不会使用全部预算。
随着思考预算的增加,推理质量得到提高。
该模型经过训练,知道给定提示应该思考多长时间,因此会根据感知的任务复杂性自动决定思考多少。
如果您希望保持最低的成本和延迟,同时仍然提高 2.0 Flash 的性能,请将思考预算设置为 0。 您还可以选择为思考阶段设置特定的 token 预算,方法是使用 API 中的参数或 Google AI Studio 和 Vertex AI 中的滑块。 2.5 Flash 的预算范围为 0 到 24576 个 tokens。
以下提示说明了 2.5 Flash 的默认模式下可能使用的推理量。
需要低推理的提示:
示例 1: 西班牙语的“谢谢” 示例 2: 加拿大有多少个省?
需要中等推理的提示:
示例 1: 你掷了两个骰子。 它们加起来是 7 的概率是多少? 示例 2: 我的健身房在周一、周三和周五的上午 9 点至下午 3 点,以及周二和周六的下午 2 点至晚上 8 点提供篮球的 Pick Up 时段。 如果我每周工作 5 天,每天工作 9-6 点,并且想在工作日打 5 个小时的篮球,请为我制定一个时间表,以便一切顺利进行。
需要高推理的提示:
示例 1: 长度为 L=3m 的悬臂梁具有矩形横截面(宽度 b=0.1m,高度 h=0.2m),由钢(E=200 GPa)制成。 它在其整个长度上承受均匀分布的载荷 w=5 kN/m,并在其自由端承受点载荷 P=10 kN。 计算最大弯曲应力 (σ_max)。
示例 2: 编写一个函数evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]
,该函数计算电子表格单元格的值。
每个单元格包含:
-
一个数字(例如,
"3"
) -
或者像
"=A1 + B1 * 2"
这样的公式,使用+
、-
、*
、/
和其他单元格。
要求:
-
解决单元格之间的依赖关系。
-
处理运算符优先级(
*/
在+-
之前)。 -
检测循环并引发
ValueError("Cycle detected at <cell>")
。 -
没有
eval()
。 仅使用内置库。
立即开始使用 Gemini 2.5 Flash 构建应用
具有思考功能的 Gemini 2.5 Flash 现在可通过 Google AI Studio 和 Vertex AI中的 Gemini API,以及 Gemini app 中的专用下拉菜单中以预览版提供。 我们鼓励您尝试thinking_budget
参数,并探索可控制的推理如何帮助您解决更复杂的问题。
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
在我们的开发者文档中查找详细的 API 参考和思考指南,或从 Gemini Cookbook 获取代码示例开始。
我们将继续改进 Gemini 2.5 Flash,更多功能即将推出,然后我们将其普遍提供以用于全面生产用途。
*模型定价来自 Artificial Analysis & Company Documentati