arXiv:2505.05654 (cs) [提交于 2025年5月8日]

标题: Toward a Sparse and Interpretable Audio Codec

作者: John Vinyard

查看由 John Vinyard 撰写的题为 Toward a Sparse and Interpretable Audio Codec 的论文的 PDF 版本 查看 PDF HTML (实验性)

摘要: 大多数广泛使用的现代音频编解码器,例如 Ogg Vorbis 和 MP3,以及更新的“神经”编解码器,如 Meta 的 Encodec 或 Descript Audio Codec,都基于块编码;音频被分成重叠的、固定大小的“帧”,然后进行压缩。虽然它们通常产生极好的重现效果,并且可以用于下游任务,如文本到音频的转换,但它们不产生直观的、可直接解释的表示。在这项工作中,我们介绍了一个概念验证的音频编码器,它将音频表示为一组稀疏的事件及其发生时间。使用了基本的基于物理的假设来建模攻击 (attack) 以及乐器演奏和表演发生的房间的物理共振,希望能鼓励一种稀疏、简洁且易于解释的表示。

主题: | 声音 (cs.SD); 音频和语音处理 (eess.AS) ---|--- 引用为: | arXiv:2505.05654 [cs.SD] (或 arXiv:2505.05654v1 [cs.SD] 对于此版本) https://doi.org/10.48550/arXiv.2505.05654 通过 DataCite 了解更多由 arXiv 发布的 DOI (等待注册)

提交历史

来自: John Vinyard [查看电子邮件] [v1] 2025年5月8日 21:20:05 UTC (2,845 KB)

全文链接:

访问论文:

查看由 John Vinyard 撰写的题为 Toward a Sparse and Interpretable Audio Codec 的论文的 PDF 版本