降噪技术提升 AI 语音代理的对话轮替体验
[搜索图标] 免费获取 Krisp
对话轮替是一个巨大的挑战
AI 语音代理正在迅速发展,为客户支持自动化、虚拟助手、游戏和远程协作平台等关键用例提供支持。为了使这些语音驱动的交互感觉自然和实用,底层音频管道必须能够抵抗噪声、响应迅速且准确——尤其是在实时场景中。
在一个典型的部署中,音频流来自移动应用程序、Web 浏览器或传统电话等各种端点,并通过 WebRTC 或 WebSockets (WSS) 等实时通信协议传输。 这些音频通过 LiveKit、Daily 或 Agora 等专门的提供商进行聚合和管理,以确保可靠的、低延迟的音频传输到服务器端管道。
[图片]
在服务器管道中,一旦音频到达,它会经过可选的预处理步骤进行格式化或基本调整,然后直接进入语音活动检测 (VAD)。
VAD 识别活跃的语音段,从而驱动自动端点检测和智能中断处理。在用户讲话之后,当 VAD 检测到静音时,相关的 API 事件会触发下游的语音 AI 模型来生成和传递响应。 如果用户在语音机器人的响应生成期间恢复讲话,则管道会无缝取消正在进行的输出并清除缓冲区,从而确保自然的对话轮替。
在这种情况下,背景噪声(例如音乐、交通声音、电视或附近的对话)仍然嵌入在音频流中,未经滤除地到达 VAD 模块。 由于 VAD 旨在检测人类语音活动,因此这些背景声音通常会导致误报的语音检测。 因此,VAD 错误地将噪声或背景声音解释为活跃的用户语音,从而触发意外的中断。 这些错误的触发会对对话轮替产生负面影响,对话轮替是自然、类人对话交互的核心组成部分。
在这里,通过将 Krisp Background Voice and Noise Cancellation 放置在 VAD 之前,管道可以大大减少误报触发,并防止来自常见背景干扰的中断。
[图片]
此外,Krisp 通过提供更清晰的音频,显着提高了下游语音处理的准确性。
隆重推出适用于 AI 语音代理的 Krisp Server SDK
我们很高兴地宣布推出 Krisp Server SDK,该 SDK 具有两种先进的 AI 模型,专门为 AI 语音代理提供卓越的降噪效果而设计。
与我们的设备端 AI 模型相比,这些模型经过优化,可提供无与伦比的性能和语音质量,尤其是在具有挑战性的极端情况下。
这两种模型都可以消除背景噪音、闲聊声和辅助声音,从而确保仅保留和清晰地呈现主要说话者的声音。
- BVC-tel (通用模型):
- 该模型设计为一种强大、通用的解决方案,非常适合各种音频源,包括 WebRTC、移动和传统电话输入。
- 专门设计为高度抵抗常见电话编解码器(例如 G711 编解码器,广泛用于电信网络)引入的音频失真。
- 支持高达 16 kHz 的音频采样率,这对于 AI 语音代理来说是最佳选择,因为它有效地捕获了人类语音的基本频率范围。
- BVC-app (高保真模型):
- 专门针对需要高质量音频流的 WebRTC 用例进行了优化。
- 支持高达 32 kHz 的更高采样率,从而实现更清晰、更自然的语音交互,适用于具有卓越音频保真度的应用程序。
ℹ️ 如果传入音频源的采样率高于模型支持的速率(例如,48 kHz),则 SDK 会通过自动降采样到模型的工作速率来智能地管理音频处理,应用降噪,然后无缝地升采样回到原始音频质量。
尽管质量得到了显着提高,但服务器端模型仍保持 15 毫秒 的低算法延迟,这与我们的设备端模型相同。 这确保了实时响应能力,这对于对话交互至关重要。
新的 Krisp Server SDK 模型已针对 CPU 进行了优化,并支持一系列平台,包括:
- Linux (x64 和 ARM64 架构)
- Windows (x64),即将推出 ARM64 支持。
量化 Krisp BVC 的影响
我们全面评估了新的 Background Voice and Noise Cancellation (BVC) 模型如何提高对话轮替的准确性和语音识别质量。
使用 BVC-tel 模型,我们专门测试了两种不同的音频管道场景:
- BVC-VAD-STT:经过 Krisp BVC 和 VAD 处理的音频将传递给 AI 语音代理。
- 仅 BVC-VAD:原始(未经处理的)音频将传递给下游的 AI 语音代理,而 Krisp BVC 处理的音频仅用于提高 VAD 的准确性。
[图片]
以下图形和音频示例展示了一个典型的示例:在与 AI 语音代理交互时,Krisp BVC 有效地消除了背景电视语音。
红色圆圈区域代表电视语音。 绿色圆圈区域代表主要说话者的语音。
仅使用 VAD 的对话轮替
|
使用 BVC-VAD 的对话轮替
---|---
电视语音通过 VAD,可能会在 AI 语音代理响应期间中断。 | 电视语音通过 VAD,可能会在 AI 语音代理响应期间中断。
|
原始音频 https://krisp.ai/blog/wp-content/uploads/2025/03/Original-Recording-1.wav | 原始音频 https://krisp.ai/blog/wp-content/uploads/2025/03/Original-Recording.wav
仅经过 VAD 处理后的音频 https://krisp.ai/blog/wp-content/uploads/2025/03/Original-Recording-No-BVC-VAD.wav | 经过 BVC 处理后的音频 https://krisp.ai/blog/wp-content/uploads/2025/03/Original-Recording-After-BVC.wav
经过 BVC + VAD 处理后的音频 https://krisp.ai/blog/wp-content/uploads/2025/03/Original-Recording-After-BVC-VAD.wav
在以下部分中,我们将进行更全面的评估,以捕获和量化 STT 中对话轮替和 WER 改进的指标。
评估设置:
- 数据集: 我们选择了广泛使用的 AMI corpus,特别是 individual headset recordings。 该数据集非常理想,因为它具有逼真的背景对话和噪声混合,代表了许多典型的移动和电话场景。
- 语音活动检测: 最新版本的开源 SileroVAD
- 语音转文本模型: Whisper V3(基本版本)。 在我们的测试中,基本版本和大型版本之间的差异并不显着,因此我们仅提供基本模型结果。
对话轮替的影响
在上游应用 Krisp BVC 对 AMI dataset 中的 VAD 精度产生了明显的积极影响——尤其是在减少误报语音检测方面。 较低的误报对于确保流畅、不间断的对话体验尤为重要。
[图片] | [图片]
---|---
我们的测试表明,使用 Krisp BVC 后,VAD 中的误报触发平均减少了 3.5 倍。 这意味着 AI 语音代理不太可能遇到由背景语音或噪声引起的意外中断。 总体而言,Krisp BVC 后的精度提高了四分之一以上——这是一个重大改进。
语音识别准确性 (WER) 的影响
使用 Krisp BVC 还可以显着降低 Whisper V3 模型在 AMI 数据集上的 Word Error Rate (WER)——实现了超过 2 倍 的改进。 考虑到 Krisp 在消除分散注意力的背景语音方面的有效性,此结果与预期一致。
[图片]
有趣的是,在 BVC-VAD 和 BVC-VAD-STT 模式下,WER 的改进都是一致的。
为了进一步探索这一点,我们评估了一个背景语音最少的数据集:ITU-T P.501 dataset,该数据集将单扬声器音频与 24 种不同噪声类型以三个强度级别(0db、5db、10db)混合在一起。
现代 STT 模型(包括 Whisper)通常具有很强的内置噪声鲁棒性。 我们的目标是衡量通过在上游应用 Krisp BVC 可以实现的任何进一步的 WER 改进。
事实上,在这种情况下,WER 指标通常比 AMI 数据集低得多。
在 BVC-VAD 模式下,Whisper 在原始音频上运行,同时利用 Krisp BVC 处理的音频来增强 VAD,我们观察到 WER 提高了 18%。
[图片]
相反,在 BVC-VAD-STT 模式下——Whisper 在 Krisp 修改的音频上处理——WER 大约增加了 2 倍,尽管绝对 WER 数字仍然相对较低。 这种增加归因于 Whisper 在其训练期间从未遇到过 Krisp NC 处理的音频,这可能会导致此类修改后的音频的性能不佳。
💡请注意,其他数据集和 STT 引擎上的 BVC-VAD-STT 模式下的 WER% 结果可能会大不相同。 我们建议尝试 BVC-VAD 和 BVC-VAD-STT 模式,以确定最适合您的音频管道设置。
总而言之,这些评估表明,将 Krisp BVC 纳入 AI 语音代理管道中可以显着提高对话轮替和语音识别质量,尤其是在背景噪声和辅助对话普遍存在的实际场景中。
相关文章
Krisp 和 Fixie 将 AI 降噪引入 Ultravox,以改善 Bot-to-Human Communication
Krisp 和 Vodex 合作完善由 GenAI 驱动的 Voicebot 通话,实现高质量的潜在客户资格认证
通过 Krisp Background Voice Cancellation (BVC) 提升您的联络中心体验
增强浏览器应用程序体验:Krisp JS SDK 开创了适用于桌面和移动设备的浏览器内 AI 语音处理
Krisp 为 Symphony 的 Trader Voice 产品提供 AI 驱动的语音清晰度
Vonage 将推出由 Krisp 的语音 AI 驱动的增强型降噪功能
Krisp 和 CarrierX 的 FreeConferenceCall.com 集成,以提供 AI 驱动的语音清晰度和降噪功能
功能
用例
公司
信任
帮助与连接
© 2025 Krisp Technologies, Inc. 保留所有权利。 2150 Shattuck Ave, Penthouse 1300, Berkeley, California 94704, United States