AI assisted search-based research works now

Source | HN Comments

文章探讨了AI辅助搜索研究的进展。作者认为，在2025年，AI在搜索辅助研究方面取得了显著进步，特别是 OpenAI 的 o3 和 o4-mini 模型，它们能够结合搜索结果进行推理，提供可靠的答案。文章还提到了 Google Gemini 和 Deep Research 等工具，但认为其效率有待提高。作者预测，随着AI搜索能力的增强，Web的经济模式可能会发生改变，并对未来发展表示关注。

AI辅助的搜索式研究终于可行了

Simon Willison’s Weblog

AI辅助的搜索式研究现在真的有效了

2025年4月21日

在过去的两年半里，我最希望从 LLM 获得的功能是代表我执行基于搜索的研究任务。早在 2023 年初，我们就看到了最初的曙光，当时出现了 Perplexity（最初于2022 年 12 月推出，第一个 prompt 泄露于 2023 年 1 月）以及由 GPT-4 驱动的 Microsoft Bing（于2023 年 2 月推出/惨败）。从那时起，很多人都尝试解决这个问题，最值得注意的是 Google Gemini 和 ChatGPT Search。

2023 年代的版本很有希望，但非常令人失望。它们非常容易捏造搜索结果中不存在的细节，以至于你无法信任它们告诉你的任何信息。

在 2025 年上半年，我认为这些系统终于越过了变得真正有用的界限。

来自三个不同供应商的 Deep Research #

首先是 Deep Research 的实现——Google Gemini 和 OpenAI 以及 Perplexity 都推出了具有该名称的产品，它们都令人印象深刻：它们可以接受查询，然后持续运行几分钟，组装一份冗长的报告，其中包含数十个（有时是数百个）引用。几周前，Gemini 的版本进行了 巨大的 升级，当时他们将其切换为使用 Gemini 2.5 Pro，从那时起，我从中获得了一些出色的结果。

等待几分钟才能获得 10 多页的报告并不是我理想的此类工具的工作流程。我没有耐心，我希望更快地得到答案！

o3 和 o4-mini 在搜索方面非常出色 #

上周，OpenAI 通过 ChatGPT 发布了支持搜索的 o3 和 o4-mini。从表面上看，这些看起来与我们已经看到的想法相同：LLM 可以选择调用搜索工具作为回复 prompt 的一部分。

但有一个 非常重要的 区别：这些模型可以在生成最终答案之前，运行搜索，作为其思维链推理过程的一部分。

事实证明，这是一件 非常重要 的事情。我一直在向 ChatGPT（以 o3 或 o4-mini 模式）提出各种问题，并获得了真正有用的、基于搜索结果的答案。我还没有发现任何捏造的细节，而且与以前的系统不同，当我看到它们在做什么时，我很少对着屏幕大喊“不，不要搜索那个！”。

以下是最近的四个示例记录：

与 o3 交谈感觉就像与 Deep Research 工具实时交谈，而无需等待几分钟才能生成过于冗长的报告。

我的预感是，要做好这一点，需要一个非常强大的推理模型。评估搜索结果很困难，因为需要筛选大量垃圾邮件和欺骗性信息。先前实现的令人失望的结果通常归结为 Web 上充斥着垃圾信息。

也许 o3、o4-mini 和 Gemini 2.5 Pro 是第一批跨越了 gullibility-resistance 阈值的模型，以至于它们可以有效地做到这一点？

Google 和 Anthropic 需要赶上 #

面向用户的 Google Gemini 应用程序也可以搜索，但它不会向我显示它正在搜索什么。因此，我只是不信任它。这是一个巨大的错失机会，因为 Google 大概拥有迄今为止最好的搜索索引，所以他们真的应该能够构建一个很棒的版本。而且 Google 在其常规搜索界面上的 AI 辅助搜索会 疯狂地 捏造信息，以至于它正在积极损害他们的品牌。我刚刚检查过，Google 仍然在显示关于 Encanto 2的胡说八道！

Claude 也在一个月前终于添加了网络搜索，但感觉没有那么好。它使用的是 Brave 搜索索引，我认为它不如 Bing 或 Gemini 全面，而且搜索不会作为强大的推理流程的一部分进行。

通过搜索懒惰地将代码移植到新的库版本 #

对我来说，真正神奇的时刻是几天前。

我的 Gemini 图像分割工具使用了 @google/generative-ai 库，该库已被大声弃用，取而代之的是仍在预览中的 Google Gen AI SDK @google/genai 库。

我不想做升级工作。一时兴起，我将我的完整 HTML 代码（带有内联 JavaScript）粘贴到 ChatGPT o4-mini-high 中，并提示：

此代码需要升级到 Google 推荐的新的 JavaScript 库。弄清楚那是什么，然后查找足够的文档来将此代码移植到它。 (我甚至懒得自己查找新库的名称！)

... 它完全做到了。它运行了 21 秒的思考，运行了一堆搜索，弄清楚了新库（它存在于其训练截止日期之外），找到了升级说明并生成了一个新版本我的代码，并且运行良好。

我出于闲着的好奇心在做其他事情时在手机上运行了这个 prompt。当它完全按照我需要的做时，我感到非常惊讶和印象深刻。

现在 Web 的经济模式如何运作？ #

我今天写这篇文章是因为它已经成为我两年多来的“LLM 能够可靠地做到这一点吗？”问题之一。我认为它们刚刚跨越了变得可以用作研究助理的界限，而无需感觉到需要用放大镜检查它们所说的一切。

我仍然不相信它们不会犯错，但我认为我可能足够信任它们，以至于我会跳过对低风险任务的自己的事实核查。

这也意味着我们在过去几年中预测的一系列潜在的黑暗未来更有可能成为现实。如果你可以直接从聊天机器人那里获得答案，为什么要访问网站呢？

对此的诉讼早在 LLM 仍然主要是垃圾的时候就开始了。现在它们实际上擅长此事，风险要高得多！

我已经感觉到我对 Google 搜索的使用正在直线下降。我预计，随着 Web 的新经济模式摇摇晃晃地出现，将会有一段颠簸的旅程。 Posted 21st April 2025 at 12:57 pm · Follow me on Mastodon, Bluesky, Twitter or subscribe to my newsletter