DolphinGemma:Google AI 如何助力解码海豚的交流

[ Google AI 如何助力解码海豚的交流 ]

2025年4月14日 · 5 分钟阅读

Twitter Facebook LinkedIn Mail Copy link

DolphinGemma,一个由 Google 开发的大型语言模型,正在帮助科学家研究海豚如何交流,并希望能找出它们在说什么。

D Dr. Denise Herzing Research Director/Founder, Wild Dolphin Project D Dr. Thad Starner Google DeepMind Research Scientist and Georgia Tech Professor

Twitter Facebook LinkedIn Mail Copy link

DolphinGemma text over a picture of dolphins

几十年来,理解海豚的咔哒声、口哨声和脉冲爆音一直是科学前沿。如果我们不仅能听到海豚的声音,还能充分理解它们复杂交流的模式,从而产生逼真的回应,那会怎么样?

今天,在国家海豚日,Google 与 Georgia Tech 的研究人员以及 Wild Dolphin Project (WDP) 的实地研究合作,宣布在 DolphinGemma 方面取得进展:这是一个基础 AI 模型,经过训练可以学习海豚发声的结构并生成新的类似海豚的声音序列。这种在物种间交流探索中使用的方法,推动了 AI 的边界以及我们与海洋世界建立潜在联系的可能性。

数十年研究海豚社会

理解任何物种都需要深入的背景,而这正是 WDP 提供的众多内容之一。自 1985 年以来,WDP 开展了世界上运行时间最长的水下海豚研究项目,研究了巴哈马群岛一个特定的野生大西洋斑点海豚 (Stenella frontalis) 群落的世代。这种非侵入式的“在它们的世界中,以它们的条件”的方法产生了一个丰富而独特的数据集:数十年的水下视频和音频,与单个海豚的身份、生活经历和观察到的行为精心配对。

Dolphins swimming in the water

一群大西洋斑点海豚,Stenella frontalis

WDP 的一个主要重点是观察和分析海豚的自然交流和社会互动。在水下工作使研究人员能够以水面观察无法做到的方式将声音与特定行为直接联系起来。几十年来,他们将声音类型与行为背景联系起来。以下是一些例子:

了解涉及的单个海豚对于准确解释至关重要。这项观察工作的最终目标是了解这些自然声音序列中的结构和潜在含义——寻找可能表明语言的模式和规则。对自然交流的长期分析构成了 WDP 研究的基石,并为任何 AI 分析提供了必要的背景。

A split image: left, a dolphin touching the sandy seabed underwater; right, a spectrogram with bright vertical streaks indicating high-frequency sounds.

左图:一头斑点海豚母亲在觅食时观察她的幼崽。她将使用她独特的签名口哨声在幼崽完成后将其唤回。右图:用于可视化口哨声的声谱图。

DolphinGemma 简介

分析海豚的自然、复杂交流是一项艰巨的任务,WDP 庞大的标记数据集为前沿 AI 提供了独特的机会。

DolphinGemma 由 Google 开发,这个 AI 模型利用了特定的 Google 音频技术:SoundStream tokenizer 有效地表示海豚的声音,然后由适用于复杂序列的模型架构处理。这个约 4 亿参数的模型经过优化,可以直接在 WDP 在现场使用的 Pixel 手机上运行。

Two spectrograms: left shows three arching sound patterns; right shows a more uniform sound pattern.

左图:在 DolphinGemma 的早期测试中生成的口哨声(左)和脉冲爆音(右)。

该模型建立在来自 Gemma 的见解之上,Gemma 是 Google 的一系列轻量级、最先进的开放模型,这些模型基于为我们的 Gemini 模型提供支持的相同研究和技术构建。DolphinGemma 在 WDP 的野生大西洋斑点海豚声学数据库中进行了广泛的训练,作为一个音频输入、音频输出模型运行,处理自然海豚声音序列以识别模式、结构,并最终预测序列中可能的后续声音,就像人类语言的大型语言模型预测句子中的下一个单词或 token 一样。

WDP 即将开始在本实地季节部署 DolphinGemma,它具有直接的潜在益处。通过识别重复出现的声音模式、簇和可靠的序列,该模型可以帮助研究人员发现海豚自然交流中隐藏的结构和潜在含义——这是一项以前需要大量人力才能完成的任务。最终,这些模式,加上研究人员创建的用于指代海豚喜欢玩的物体的合成声音,可能会与海豚建立一个用于交互式交流的共享词汇表。

使用 Pixel 手机收听和分析海豚的声音

除了分析自然交流之外,WDP 还在追求一条截然不同的平行路径:探索在海洋中使用技术进行潜在的双向互动。这项工作促成了与 Georgia Institute of Technology 合作开发的 CHAT (Cetacean Hearing Augmentation Telemetry) 系统。CHAT 是一种水下计算机,旨在不直接破译海豚复杂的自然语言,而是建立一个更简单、共享的词汇表。

该概念首先依赖于将新的合成口哨声(由 CHAT 创建,不同于自然海豚的声音)与海豚喜欢的特定物体相关联,例如马尾藻、海草或研究人员使用的围巾。通过在人与人之间演示该系统,研究人员希望天生好奇的海豚将学会模仿口哨声以要求这些物品。最终,随着对更多海豚的自然声音的理解,它们也可以添加到系统中。

CHAT explainer video

为了实现双向互动,CHAT 系统首先需要:

  1. 在海洋噪音中准确听到模仿。
  2. 实时识别模仿的是哪个口哨声。
  3. 告知研究人员(通过在水下工作的骨传导耳机)海豚“要求”的物体。
  4. 使研究人员能够通过提供正确的物体来快速响应,从而加强连接。

一台 Google Pixel 6 实时处理了海豚声音的高保真分析。即将推出的一代产品,以 Google Pixel 9 为中心(研究计划于 2025 年夏季进行),通过集成扬声器/麦克风功能,并使用手机的先进处理能力同时运行深度学习模型和模板匹配算法,从而建立在这项工作的基础上。

Two portraits: left, a woman on a boat holding a device; right, a man indoors wearing headphones and holding a similar device.

左图:Denise Herzing 博士佩戴着“Chat Senior, 2012”,右图:Georgia Tech 博士生 Charles Ramey 佩戴着“Chat Junior, 2025”

使用 Pixel 智能手机大大减少了对定制硬件的需求,提高了系统可维护性,降低了功耗,并缩小了设备的成本和尺寸——这是在公海进行实地研究的关键优势。与此同时,DolphinGemma 的预测能力可以帮助 CHAT 预测并识别发声序列中潜在的模仿,从而提高研究人员对海豚做出反应的速度,并使互动更加流畅和加强。

Pixel phone inside a case hooked up to cables

Google Pixel 9 在最新的 CHAT 系统硬件中。

与研究界分享 DolphinGemma

认识到合作在科学发现中的价值,我们计划在今年夏天将 DolphinGemma 作为开放模型共享。虽然它是在大西洋斑点海豚的声音上训练的,但我们预计它对研究其他鲸类物种(如宽吻海豚或飞旋海豚)的研究人员具有潜在的效用。可能需要针对不同物种的发声进行微调,并且该模型的开放性质有助于这种适应。

通过提供像 DolphinGemma 这样的工具,我们希望为世界各地的研究人员提供挖掘他们自己的声学数据集、加速搜索模式并共同加深我们对这些智能海洋哺乳动物的理解的工具。

理解海豚交流的旅程是漫长的,但 WDP 专门的实地研究、Georgia Tech 的工程专业知识和 Google 技术的强大功能正在开启令人兴奋的新可能性。我们不再只是倾听。我们开始了解声音中的模式,为人类和海豚交流之间的差距可能会缩小的未来铺平道路。

您可以在他们的网站上了解有关 Wild Dolphin Project 的更多信息。

发布于:

相关文章

Let’s stay in touch. Get the latest news from Google in your inbox. Subscribe No thanks

Follow Us