Google在各个 AI 领域都遥遥领先
Google在各个 AI 领域都遥遥领先
此时此刻,无论是 OpenAI 还是 Anthropic 都没有机会了
Alberto Romero 2025年4月10日 ∙ 付费内容 70
即使在我对 OpenAI 最乐观的时候,我内心也更偏爱 DeepMind。我感觉 Demis Hassabis 比 Sam Altman 更值得信任——他是一位真正的科学家,而不是商人。此外,还有 AlphaGo 和 AlphaZero。对我来说,它们不仅仅是历史性的里程碑,更是一种怀旧。 ChatGPT 很酷,但你还记得 第 37 步 吗?还有 AlphaZero-Stockfish 8 的国际象棋比赛? 我对 AI 的热爱和兴趣与 DeepMind 的成功并驾齐驱。我几乎像一个体育迷一样,为他们欢呼。
所以,多年来,我一直因为他们持续的_失误_而感到沮丧。他们拥有技术、人才、资金、基础设施、声望和信念,可以在 OpenAI 之前创造出 ChatGPT——或者他们想要的任何东西。但他们没有做到。 CEO Sundar Pichai 害怕破坏 Google 的主要收入来源(搜索和广告)。他选择了谨慎而不是大胆。好吧——他们没有搬起石头砸自己的脚。
因为他们根本没有_采取任何行动。_
但那是他们犯的最后一个错误。今天,在 ChatGPT 惨败两年半后, Google DeepMind 正在获胜。他们现在赢得太狠了,以至于他们在尖叫,“求求你们了,我们受不了了,赢得太多了!” 不,但说真的——我想知道 OpenAI, Anthropic, Meta 和 Co. 曾经有过一丝获胜的机会,是不是仅仅因为 Google 曾经犯过一次错误。他们现在不会再犯了。
我一直在推迟撰写关于 Gemini 2.5 的文章。仅仅关注 AI 模型感觉不足以讲述 Google 复兴的完整故事。 Gemini 2.5 只是一个片段——虽然是一个很大的片段——但却是更大事物的一部分。早在 2024 年 12 月,我就说过他们将在 2025 年底脱颖而出。我们甚至还没有走到一半,但它已经发生了。(由于我仍然不明白的原因,有些人真的认为 xAI 有机会。)
无论如何,为了避免将这篇文章变成过度风格化的叙述——我这样做比我希望的要频繁——我将把它保持在要点上。这样更有冲击力。你会明白我的意思,当这个列表就是...没有尽头。
Google 和 DeepMind 的粉丝们:享受这迟来的重生吧。
- Gemini 2.5 Pro Experimental 是世界上最好的模型。在 LMArena, GPQA Diamond, Humanity's Last Exam 和 AIME (数学竞赛) 中排名第一。它也是在私人基准测试中最好的,例如 Aider Polyglot (代码), Live Bench (多样化)。它比 Claude Sonnet 在 玩 Pokemon (一个有希望的代理游乐场) 和在 Minecraft Bench (一些 例子) 上快速上升。它在 创意写作 (例如,长上下文理解) 方面表现不错,这已经是一个多年来难以捉摸的里程碑。
- 也许最重要的是,基准测试分数与我从氛围检查、高品味测试者和第一手证词中收到的信号相符:人们 报告说 大规模地 Gemini 2.5 Pro 确实是今天最好的模型。 一个难得一见的景象。(观看下面的 Matthew Berman 的剪辑。)
- 这只是纯粹的性能。在上述基础上,Gemini 2.5 与同类模型相比,速度快且 便宜——我的意思是,他们 免费提供访问!——拥有 100 万个 token 的巨大上下文窗口 (最近才被 Meta 的 Llama 4 超越),并且它连接到整个 Google 产品套件 (稍后会详细介绍)。
- Gemini 2.5 Flash (即将推出) 是 Gemini 2.5 Pro 的小兄弟。它同样令人惊叹,但原因不同。连同旧版本的 Flash (2.0, Lite, Thinking),它将 非常快 并且 非常便宜 (比竞争对手的同类模型便宜得多,甚至比 DeepSeek 的 便宜,DeepSeek 以 便宜而闻名)。它们也很小,这使得它们非常适合边缘应用和手机集成。
- 然后是 Gemma 3——Google 的开源模型,与最好的开源模型竞争,包括 Llama 4 (太大了) 和 DeepSeek-V3。
- Swyx 绘制了一个图表,揭示了“Google 拥有 Pareto 前沿”,Gemini 2.0/2.5(Pro 和 Flash)在两个最重要的指标上:性能和成本。不仅如此,Google 性能最好的模型_仍然具有成本效益_,并且其最具成本效益的模型_仍然具有高性能_。在这一点上,Google 正在欺负竞争对手;Gemini 简直是脱颖而出,名副其实。
- 像 Gemini 和 ChatGPT 这样的聊天机器人所依赖的 LLM 是主要的吸引力,但远非唯一。 Google 在其他生成式 AI 领域的主导地位与它在基于文本的模型中的主导地位一样明显。他们宣布他们将把他们拥有的其他 AI 工具集成到 Vertex AI 中:Lyria (音乐), Imagen 3 (图像), Veo 2 (视频), 和 Chirp 3 (语音/语音)。在某种程度上,这些是 Google 的副项目。尽管如此,它们在各自的类别中都是世界一流的。可以说,ChatGPT 的图像生成 更好,但例如,Veo 2 促使我写了一篇文章,题为“你必须看看 AI 视频已经发展到什么程度,” 而 OpenAI Sora 纯粹是垃圾。(下面的剪辑来自 Veo 2。)
- 代理呢? 深度研究模式 中的 Gemini 2.5 Pro 比 OpenAI 的深度研究_好两倍_ (直到现在,它被广泛认为是调查工作最重要的 AI 产品)。 Google DeepMind 正在使用 Project Astra (助理) 和 Project Mariner (计算机交互) 进行进一步的烹饪。
- 如果这还不够,他们已经构建了一个 Agent2Agent 协议,它与 模型上下文协议 互补且兼容,在听取社区的反馈后,他们_也将 构建_。 我再也受不了_嘲讽_了。
- 最重要的是,他们不断推出高质量的论文,在 Nature 上发表 或在 ICLR 或 NeurIPS 或其他世界一流的期刊或会议上展示。 如果偶然没有发生,你也可以以任何方式判断他们认真对待 AGI 工作 以及 工业 AI。
就这样了吗? 并非如此。 让我们不要忘记,Google 既是一家消费者软件公司,也是一家 AI 公司。 他们构建的模型比 OpenAI 和 Anthropic 更好,但他们也做了很多其他人无法做到的事情。