反对对话式界面 (The case against conversational interfaces)

01 引言

对话式界面有点像一种“梗”。每隔几年,就会出现一种闪亮的新 AI 技术,然后科技界的人就会说:“就是它了!下一个计算范式来了!我们以后只会使用自然语言了!”。但实际上什么也没改变,我们仍然像往常一样使用电脑,直到几年后这个争论再次浮出水面。

我们已经经历过几次这样的循环了:虚拟助手 (Siri),智能音箱 (Alexa, Google Home),聊天机器人("conversational commerce"),AirPods-as-a-platform,以及最近的大语言模型。

我不完全确定这种对对话式界面的痴迷从何而来。也许这是一种“未来乡愁 (anemoia)”,一种对我们在《星际迷航》中看到的,但从未成为现实的未来的怀念。或者,也许只是因为人们看到“自然语言”这个词,就觉得“好吧,如果它是自然的,那么它一定是合乎逻辑的最终状态”。

我在这里告诉你,事实并非如此。

02 数据传输机制

当人们说“自然语言”时,他们指的是书面或口头交流。自然语言是人类之间交流想法和知识的一种方式。换句话说,它是一种数据传输机制。

数据传输机制有两个关键因素:速度和损耗性。

速度决定了数据从发送者到接收者传输的速度有多快,而损耗性指的是数据传输的准确程度。在理想状态下,你希望数据传输以最大速度(即时)和完美保真度(无损)发生,但这两个属性通常需要权衡。

让我们看看自然语言在速度维度上的表现如何:

首先我应该指出的是,这些数据点都是非常非常简化平均的。从这个表格中得出的重要结论不是单个数字的准确性,而是总体模式:我们在接收数据(阅读,听力)方面明显快于发送数据(写作,口语)。这就是为什么我们可以以 2 倍速收听播客,但不能以 2 倍速录制它们。

为了更好地理解写作和口语的速度,我们形成想法的速度是每分钟 1,000-3,000 个单词。自然语言可能很自然,但它是一个瓶颈。

然而,如果你想想你每天与他人的互动,大多数交流都感觉非常快速和高效。那是因为自然语言只是我们可用的众多数据传输机制之一。

例如,与其说“我认为你刚才说的是个好主意”,我可以给你一个大拇指。或者点点头。或者只是微笑。

手势和面部表情实际上是数据压缩技术。它们以更紧凑但有损耗的形式编码信息,使其传输速度更快、更方便。

自然语言非常适合需要高保真度的数据传输(或作为异步通信的数据存储机制),但只要有可能,我们就会切换到其他更快更轻松的通信模式。速度和便利性总是胜出。

我最喜欢的真正毫不费力的沟通例子是我祖父母的回忆。在早餐桌上,我的祖母从不需要索要黄油——我的祖父总是自动地把它递给她,因为在结婚 50 多年后,他只是感觉到她要问了。就像他们心有灵犀一样。

才是我想要和我的电脑建立的那种关系!

03 人机交互 (Human Computer Interaction)

与人与人之间的交流类似,存在不同的数据传输机制来交换人类和计算机之间的信息。在计算机技术的早期,用户通过命令行与计算机交互。这些基于文本的命令实际上是一种自然语言界面,但需要精确的语法和对系统的深入理解。

图形用户界面 (GUI) 的引入主要解决了发现问题:你不必记住确切的文本命令,而是可以通过菜单和按钮等可视化元素来导航和执行任务。这不仅使事情更容易被发现,而且更方便:单击按钮比键入长文本命令更快。

今天,我们生活在一个结合了图形界面和基于键盘的命令的生产力平衡中。

我们仍然使用鼠标来导航并告诉我们的电脑下一步该做什么,但常规操作通常以快速的键盘按键形式进行通信:⌘b 将文本格式化为粗体,⌘t 打开一个新标签页,⌘c/v 快速将事物从一个地方复制到另一个地方,等等。

但这些快捷方式不是自然语言。它们是另一种形式的数据压缩。就像一个大拇指或一个点头一样,它们可以帮助我们更快地进行交流。

现代生产力工具将这些数据压缩快捷方式提升到了一个新的水平。在像 Linear, Raycast 或 Superhuman 这样的工具中,每个命令都只需按一下键。一旦你建立了肌肉记忆,数据输入就会感觉完全毫不费力。这几乎就像在早餐桌上被递过黄油,而无需开口索要。

基于触摸的界面被认为是人机交互演变的第三个关键里程碑,但它们始终更像是桌面计算的增强,而不是替代品。智能手机非常适合“远离键盘”的工作流程,但重要的生产力工作仍然发生在桌面上。

那是因为文本不是移动设备的原生输入机制。物理键盘可以感觉像是你思想和身体的自然延伸,但在手机上打字总是有点别扭——这反映在数据传输速度上:移动设备上的平均打字速度仅为每分钟 36 个单词,明显低于桌面上的 ~60 个单词/分钟。

我们已经能够用移动设备特定的数据压缩算法(如表情符号或 Snapchat 自拍)取代自然语言,但我们从未找到与键盘快捷键等效的移动设备。猜猜为什么自从 iPhone 推出近 20 年后,我们仍然没有真正的移动优先生产力应用程序?

你可能会说:“但是语音转文本呢?” 并指向关于语音消息使用量增加的报告。诚然,说话 (150wpm) 确实比打字 (60wpm) 更快的数据传输机制,但这并不意味着它会自动成为与计算机交互的更好方法。

我们一直告诉自己,像 Alexa 或 Siri 这样的早期语音界面没有成功是因为底层 AI 不够聪明,但这只是故事的一半。核心问题从来不是输出功能的质量,而是输入功能的不便:像“Hey Google, what’s the weather in San Francisco today?” 这样的自然语言提示,比仅仅点击主屏幕上的天气应用要花费 10 倍的时间。

大型语言模型 (LLM) 没有解决这个问题。它们的输出质量正在以惊人的速度提高,但输入方式却比我们已经拥有的倒退了一步。为什么我必须使用自然语言来描述我想要的操作,而我可以直接按下按钮或键盘快捷键呢?就给我递该死的黄油。

04 对话式用户界面 (Conversational UI) 作为增强

以上都不是说 LLM 不好。我喜欢 LLM。我一直都在使用它们。事实上,我就是在一个 LLM 的帮助下写了这篇文章。

我没有用笔和纸(我首选的写作工具)起草第一个版本,而是花了一个小时在外面散步,用高级语音模式与 ChatGPT 交谈。我们梳理了我脑海中所有模糊的想法,澄清并组织了它们,探索了一些额外的论点,最终将所有内容整合到了一个初步的提纲中。

这不仅仅是一个单方面的“嘿,你能写几段关于 x 的文章吗”prompt。感觉就像与一个真正的思想伙伴进行了一场真诚、深入的对话和想法交流。即使几个星期后,我仍然对它的效果感到惊讶。那是罕见的、神奇的时刻之一,软件让你感觉你生活在未来。

然而,与典型的人与计算机之间的命令不同,这种工作流程不是由速度定义的。与写作一样,我与 ChatGPT 的对话是一个思考过程——而不是在思考后发生的互动。

还应该注意的是,在这个例子中,ChatGPT 没有替代任何现有的软件工作流程。这是一个全新的用例。

这引出了我的核心论点:对话式界面的不便和较差的数据传输速度使它们不太可能替代现有的计算范式——但如果它们可以作为补充呢?

迄今为止,我见过的最令人信服的对话式用户界面是在一个黑客马拉松上,一个团队将 Amazon Alexa 转变为 StarCraft II 的游戏内语音助手。语音不是取代鼠标和键盘,而是充当了额外的输入机制。它增加了数据传输的带宽。

你可以看到同样的模式适用于任何类型的知识工作,在这些工作中,语音命令可以在你忙于做其他事情时使用。我们不会用聊天界面取代 Figma, Notion 或 Excel。这是不会发生的。我们也不会永远延续现状,即我们必须不断地在这些工具和一个 LLM 之间来回切换。

相反,AI 应该充当一个始终在线的命令元层,跨越所有工具。用户应该能够通过简单的语音提示从任何地方触发操作,而无需用鼠标和键盘中断他们当前正在做的事情。

为了让这个未来成为现实,AI 需要在操作系统 (OS) 级别工作。它不应该是一个单一工具的界面,而是一个跨工具的界面。Kevin Kwok 曾经写道,“生产力和协作不应该是两个独立的工作流程”。虽然他指的是人与人之间的协作,但在人与 AI 协作的世界中,这种说法甚至更真实,在这个世界中,生产力和协调之间的界限变得越来越模糊。

我们需要弄清楚的第二件事是我们如何压缩语音输入,使其传输速度更快。什么是语音等同于一个大拇指或一个键盘快捷键?我能用简单的声音和口哨更快地提示 Claude 吗?ChatGPT 是否应该访问我的摄像头,以便它可以根据我的面部表情实时更改答案?

即使作为一个辅助界面,速度和便利性才是最重要的。

05 结语

我承认这篇文章的标题有点误导(但它让你点击进来了,不是吗?)。这实际上不是反对对话式界面,而是反对零和思维。

我们花了太多时间思考 AI 作为一种替代品(对于界面、工作流程和工作),而太少的时间思考 AI 作为一种补充。进步很少遵循简单的替代路径。它解锁了新的、以前无法想象的事物,而不仅仅是取代以前的事物。

这里也是如此。未来不是用聊天界面取代现有的计算范式,而是增强它们,使人机交互感觉毫不费力——就像在熟悉的早餐桌上无声地传递黄油一样。

感谢 Blake Robbins, Chris Paik, Jackson Dahl, Johannes Schickling, Jordan Singer, 和 signüll 阅读了本文的草稿。