AI Agents：少一些炫技，多一些可靠性

AI Agents: Less Capability, More Reliability, Please

Source | HN Comments

文章探讨了AI Agents的可靠性问题。作者认为，当前AI Agents过度追求炫技，忽视了用户对简单、透明、可预测的需求。相比于华丽但不可靠的性能，用户更看重稳定性和易用性。文章以预订机票和IDE为例，指出过度依赖AI黑盒可能导致用户失去控制感。作者建议AI团队专注于少量任务，优先考虑可靠性、透明度和可预测性，而不是盲目追求复杂功能。

Sergey Filimonov

AI Agents：少一些炫技，多一些可靠性

2025年3月30日

为什么预订机票总是 AI agent 演示的 “Hello World”？

我不希望 AI 帮我预订机票——一个小小失误，我就可能陷入客户服务的噩梦中无法自拔。Google Flights 已经在这方面做得非常出色：透明、可预测、易于使用。将如此简单的流程变成神秘的 AI 黑盒，这不是创新，而是令人头疼的问题。

AI 仍然处于起步阶段，虽然早期使用者可能会容忍复杂性和偶尔的失败，但主流用户需要的是简单和可靠。事实上，可预测、易于理解的结果远比华丽但不可靠的性能更有价值。根据我们的经验 [1]，用户更乐于接受适度的准确性——比如始终如一的 80%——而不是华而不实但不可靠的 90%。

然而，太多的 AI 项目一直低估了这一点，他们追求华丽的 agent 演示，承诺突破性的能力——直到不可避免的失败破坏了他们的信誉。

例如，我最沮丧的事情之一——作为一个深入研究 AI 驱动工具的人来说——是每个 IDE 越来越像一个不透明的黑盒。 这触及了一种更深层次、更原始的不安：害怕将控制权交给不可预测的技术，无论是编码环境、个人助理还是自主系统。

Hacker News Comment

最近一个爆火的 Reddit thread 生动地说明了这一点。一位开发者分享了 Cursor 如何突然抹去了他几个月的工作成果。将责任归咎于用户没有掌握基本的版本控制固然容易，但忽略了更深层次的问题。真正的问题在于 UX 设计。好的设计应该积极防止灾难性错误，清楚地传达 AI 正在执行的操作，并提供简单的撤销方式。

Cursor 最初获得关注正是因为这一点——它的 tab-complete 界面透明、易于理解且可逆。每次交互的风险都很低，并逐步赢得用户的信任。这种简单性直接解决了人们对不可预测性和控制的更广泛担忧，为更雄心勃勃但不够透明的 AI 工具所带来的风险提供了令人安心的对应。

与之形成对比的是 Devin 对完全自主性的激进飞跃。尽管获得了 2 亿美元的资金，但他们雄心勃勃的方法很快在自身复杂性的重压下崩溃。 Devin 雄心勃勃的自动化直接将用户带入困惑——缓慢的响应、不明确的流程和不可预测的结果迅速摧毁了信任 [2],[3],[4]。

鉴于 AI 领域日益激烈的竞争，团队面临着一个艰难的平衡：快速行动，冒着破坏的风险，或者优先考虑可靠性，冒着被抛弃的风险。应对这种紧张关系的关键是 专注——选择少量任务，出色地执行，并不断迭代它们。

AI 团队必须优先考虑最小化差异，专注于深入理解的任务，而不是从过于复杂的系统中追求增量收益。 Agents 仍然具有变革的潜力，但可靠性、透明性和可预测性必须始终是核心。

订阅以获取未来更新？

Footnotes:

[5] 我希望我有更多时间来讨论这个问题 - agents 还是 workflows？Anthropic 对此进行了完美的阐述。如果你的任务清楚地适合 workflow，那就构建一个 workflow。太多团队过早地投入到复杂的 agents 中，而这些 agents 变得极其难以管理。 Workflows 本身就具有可预测性、可控性和简单性——agents 应该专门保留给真正动态的场景。

AI Agents：少一些炫技，多一些可靠性

AI Agents：少一些炫技，多一些可靠性

Footnotes:

订阅博客

有任何反馈或问题？

让我们一起创造伟大的事物