AI Agents:少一些炫技,多一些可靠性
AI Agents:少一些炫技,多一些可靠性
2025年3月30日
为什么预订机票总是 AI agent 演示的 “Hello World”?
我不希望 AI 帮我预订机票——一个小小失误,我就可能陷入客户服务的噩梦中无法自拔。Google Flights 已经在这方面做得非常出色:透明、可预测、易于使用。将如此简单的流程变成神秘的 AI 黑盒,这不是创新,而是令人头疼的问题。
AI 仍然处于起步阶段,虽然早期使用者可能会容忍复杂性和偶尔的失败,但主流用户需要的是简单和可靠。 事实上,可预测、易于理解的结果远比华丽但不可靠的性能更有价值。根据我们的经验 [1],用户更乐于接受适度的准确性——比如始终如一的 80%——而不是华而不实但不可靠的 90%。
然而,太多的 AI 项目一直低估了这一点,他们追求华丽的 agent 演示,承诺突破性的能力——直到不可避免的失败破坏了他们的信誉。
例如,我最沮丧的事情之一——作为一个深入研究 AI 驱动工具的人来说——是每个 IDE 越来越像一个不透明的黑盒。 这触及了一种更深层次、更原始的不安:害怕将控制权交给不可预测的技术,无论是编码环境、个人助理还是自主系统。
最近一个爆火的 Reddit thread 生动地说明了这一点。一位开发者分享了 Cursor 如何突然抹去了他几个月的工作成果。 将责任归咎于用户没有掌握基本的版本控制固然容易,但忽略了更深层次的问题。真正的问题在于 UX 设计。好的设计应该积极防止灾难性错误,清楚地传达 AI 正在执行的操作,并提供简单的撤销方式。
Cursor 最初获得关注正是因为这一点——它的 tab-complete 界面透明、易于理解且可逆。每次交互的风险都很低,并逐步赢得用户的信任。 这种简单性直接解决了人们对不可预测性和控制的更广泛担忧,为更雄心勃勃但不够透明的 AI 工具所带来的风险提供了令人安心的对应。
与之形成对比的是 Devin 对完全自主性的激进飞跃。 尽管获得了 2 亿美元的资金,但他们雄心勃勃的方法很快在自身复杂性的重压下崩溃。 Devin 雄心勃勃的自动化直接将用户带入困惑——缓慢的响应、不明确的流程和不可预测的结果迅速摧毁了信任 [2],[3],[4]。
鉴于 AI 领域日益激烈的竞争,团队面临着一个艰难的平衡:快速行动,冒着破坏的风险,或者优先考虑可靠性,冒着被抛弃的风险。 应对这种紧张关系的关键是 专注——选择少量任务,出色地执行,并不断迭代它们。
AI 团队必须优先考虑最小化差异,专注于深入理解的任务,而不是从过于复杂的系统中追求增量收益。 Agents 仍然具有变革的潜力,但可靠性、透明性和可预测性必须始终是核心。
订阅以获取未来更新?
Footnotes:
[5] 我希望我有更多时间来讨论这个问题 - agents 还是 workflows?Anthropic 对此进行了完美的阐述。 如果你的任务清楚地适合 workflow,那就构建一个 workflow。 太多团队过早地投入到复杂的 agents 中,而这些 agents 变得极其难以管理。 Workflows 本身就具有可预测性、可控性和简单性——agents 应该专门保留给真正动态的场景。
订阅博客
保持联系,并在您的收件箱中接收新的博客文章。 订阅
有任何反馈或问题?
我很乐意听到您的意见。 联系我 >→
让我们一起创造伟大的事物
GitHub iconAboutArticles
© 2025 Sergey Filimonov. All rights reserved.