面向稀疏且可解释的音频编解码器研究

Toward a Sparse and Interpretable Audio Codec

Source | HN Comments

文章介绍了一种新型音频编解码器，旨在实现稀疏且可解释的音频表示。区别于传统的基于块编码的编解码器（如 Ogg Vorbis、MP3、Encodec），该编解码器将音频表示为一组稀疏的事件及其发生时间。通过模拟攻击、乐器演奏和房间共振等物理现象，该方法希望能够生成一种更直观、更易于理解的音频表示方式。

arXiv:2505.05654 (cs) [提交于 2025年5月8日]

标题: Toward a Sparse and Interpretable Audio Codec

作者: John Vinyard

查看由 John Vinyard 撰写的题为 Toward a Sparse and Interpretable Audio Codec 的论文的 PDF 版本查看 PDF HTML (实验性)

摘要: 大多数广泛使用的现代音频编解码器，例如 Ogg Vorbis 和 MP3，以及更新的“神经”编解码器，如 Meta 的 Encodec 或 Descript Audio Codec，都基于块编码；音频被分成重叠的、固定大小的“帧”，然后进行压缩。虽然它们通常产生极好的重现效果，并且可以用于下游任务，如文本到音频的转换，但它们不产生直观的、可直接解释的表示。在这项工作中，我们介绍了一个概念验证的音频编码器，它将音频表示为一组稀疏的事件及其发生时间。使用了基本的基于物理的假设来建模攻击 (attack) 以及乐器演奏和表演发生的房间的物理共振，希望能鼓励一种稀疏、简洁且易于解释的表示。

主题: | 声音 (cs.SD); 音频和语音处理 (eess.AS) ---|--- 引用为: | arXiv:2505.05654 [cs.SD] (或 arXiv:2505.05654v1 [cs.SD] 对于此版本) https://doi.org/10.48550/arXiv.2505.05654 通过 DataCite 了解更多由 arXiv 发布的 DOI (等待注册)

提交历史

来自: John Vinyard [查看电子邮件] [v1] 2025年5月8日 21:20:05 UTC (2,845 KB)

全文链接:

访问论文:

查看由 John Vinyard 撰写的题为 Toward a Sparse and Interpretable Audio Codec 的论文的 PDF 版本