潜在空间中的口音:AI 如何感知英语口音强度
潜在空间中的口音
AI 如何感知英语口音强度
作者:Oscar Friedman 和 Ilya Usorov,2025 年 5 月 6 日
我们在 BoldVoice 做了很多关于口音的工作,BoldVoice 是一款由 AI 驱动的口音辅导应用,专为非英语母语者设计。口音是语音中微妙的模式——元音形状、语速、音调等等。通常,你需要一位语言学家才能理解这些特质。然而,我们在 BoldVoice 的目标是让机器理解口音,而机器的思考方式与语言学家不同。因此,我们提出问题:机器学习模型如何理解口音,特别是口音的强度?
为了开始这个旅程,我们首先介绍“口音指纹”,这是一种嵌入,通过 BoldVoice 的大型口音语音模型推断英语语音记录来生成。
torch.Size([1, 768, 12])
口音指纹嵌入维度
在这篇文章中,我们将展示口音指纹在潜在空间中的位置,该空间中的距离和方向如何对应于口音相似度和语言背景,以及我们如何使用它来指导我们的产品管理实习生 Victor(一位非英语母语者)朝着我们的专业口音教练 Eliza 的美式英语口音靠拢。
原始录音
首先,这是 Victor 说英语时的声音:
Victor (原始录音)
现在听一下 Eliza 阅读同一段文字。Eliza 正在展示我们的“目标”美式口音。
Eliza's recording
与美国英语母语者 Eliza 相比,Victor 在说英语时有着明显的中国口音。
潜在空间
为了让我们理解机器学习模型如何理解这两种录音,我们现在用来自我们内部数据的 1000 个语音录音填充一个潜在空间,这些录音代表了不同程度的口音。可以随意查看潜在空间1的二维可视化,并将鼠标悬停在点上以查看有关每个录音的详细信息。
完整维度的潜在空间包含有关说话人身份、口音、可理解性、情感和其他特征的信息。这个可视化图经过修剪,仅显示与“口音强度”相关的信息,即“说话人的口音相对于英语母语者有多强?”
更具体地说,我们应用 PLS 回归来识别与人类口音强度评级最相关的潜在空间方向,并且仅出于此可视化的目的,我们应用 2D UMAP 降维。x 轴表示口音强度的第一个隐藏维度,而 y 轴表示第二个隐藏维度。2
以下伪代码显示了如何选择潜在空间的维度:
accent_strength_directions = PLSRegression.fit(train_accent_fingerprints, train_accent_strength_ratings)
accent_strength_features = test_accent_fingerprints[accent_strength_directions]
visualization_features = UMAP(n_components=2).fit_transform(accent_strength_features)
1 为了简洁起见,我们将使用术语“潜在空间”来指代完整维度的空间以及修剪后的 2D 可视化。 2 这些维度不易解释,不正交,并且仅被选择以最大限度地提高其在 L2 英语(英语作为第二语言)中区分口音强度的效用。
绘制口音
现在,让我们在这个潜在空间中可视化 Victor 和 Eliza 的录音的口音指纹。您可以看到左下方有一个紫色的菱形代表 Eliza 的录音,而右上角有一个黄色的菱形代表 Victor 的录音。
从我们所看到的,一个录音越靠近图的左下方,其说话人的口音听起来就越“native sounding(像母语者)”和“less strong(不那么强烈)”。因此,我们根据它们与潜在空间中 Eliza 的位置的距离,将这些点标记为 Native、Near Native、Advanced、Intermediate 和 Beginner。
我们立即看到的另一个发现是,潜在空间没有偏向于不同的母语,因为我们没有看到任何基于说话人母语的聚类,并且母语在所有熟练程度上的分布相当均匀。
现在,让我们看看一些创造性的方法,我们可以使用我们内部的语音模型和工具套件来帮助 Victor 更接近 Eliza 的口音。
清理背景噪音
首先引人注目的是,Eliza 的录音比 Victor 的录音干净得多。如果我们可以消除他录音中的背景噪音,也许他会更容易专注于口音差异?
Victor (清理后的录音)
惊喜!这并没有改变 Victor 在潜在空间中的位置太多,清理后的录音非常接近 Victor 原始录音,位于潜在空间的右上角。这是一个很好的健全性检查,表明我们的潜在空间工作正常——录音质量和背景噪音水平与口音强度无关。
转换口音
接下来,也许 Victor 发现很难模仿 Eliza 的口音,因为他的声音音域比她的低得多。因此,我们将使用 BoldVoice 内部的口音转换模型来听听 Victor 带有 Eliza 口音的声音。(是的,我们真的可以做到这一点——我们将在以后的文章中分享更多关于这方面的信息。)
Victor's original recording Victor (converted recording)
正如您所看到的,带有 Eliza 口音的 Victor 的位置就在潜在空间中 Eliza 原始位置的旁边。从语音上讲,元音形状、强调、音调和语速仍然存在一些差异,但即使没有专业知识,Victor 现在也能更容易地模仿 Eliza 的口音,因为它现在是他自己的声音。
练习口音
我们让 Victor 听了这段带有 Eliza 口音的音频大约 10 分钟,让他有时间练习模仿。这是 Victor 在练习后的声音:
Victor (练习后的录音) Compare to Eliza's original recording
还不错——Victor 在语速、语调和重音方面与她匹配得很好,但有些元音形状仍然不太一样。让我们看看他在潜在空间中离 Eliza 有多远。
这是一个很大的进步!Victor 在潜在空间中的新位置恰好位于 Intermediate 和 Advanced 的边界上。
如果 Victor 想超越这一点,BoldVoice 应用中提供的逐个声音的语音分析将使他能够理解发音和重音中的模式,这些模式有助于 Eliza 的口音,并教他如何在自己的语音中应用它们。
我们学到了什么?
- 该机器学习模型可以清楚地区分说话人口音的强度。
- 该模型对口音强度的评估似乎独立于说话人的母语背景。
- 说话人的口音强度可以通过练习来改变。
- 语音转换技术可以将目标口音映射到不同的声音上,为练习提供有用的工具。
- 对声学环境的改变,例如降噪,不会导致测量的口音强度发生大的变化。
应用和下一步
从该模型衍生的口音强度指标具有几个有希望的应用。
- 它提供了一种量化的方法来跟踪英语学习者通过多次录音的口音学习过程,通过测量他们在潜在空间中与目标口音配置文件的距离。
- 同样的定量方法可以应用于严格评估自动语音识别 (ASR) 系统在不同口音强度下的性能变化。
- 它可以类似地监测文本到语音 (TTS) 系统中不想要的口音变化,通常称为“口音漂移”。
敬请关注更多内容!
您有任何问题或意见吗?或者您对我们将来要报道的内容有任何建议吗?请通过 engineering@boldvoice.com 与我们联系!
在我们的下一篇文章中,我们将演示如何直接探索口音指纹(嵌入),而无需针对任何特定任务对其进行工程设计,并进行一次英语口音的世界之旅。