全新 Veo 3 和 Imagen 4，以及电影制作工具 Flow

Veo 3 and Imagen 4, and a new tool for filmmaking called Flow

Source | HN Comments

文章发布了最新的生成式媒体模型，包括 **Veo 3** 和 **Imagen 4**，以及电影制作工具 **Flow**。**Veo 3** 能够生成带音频的视频，并已在 **Gemini** 应用和 **Flow** 中提供。**Imagen 4** 专注于图像质量和排版，可在多个平台使用。同时，**Lyria 2** 扩展了音乐创作工具，**Flow** 则整合了 **Veo**、**Imagen** 和 **Gemini** 模型，帮助用户创作电影。文章还强调了负责任的创作，并推出了 **SynthID Detector** 用于识别 AI 生成内容。

[中文正文内容]

今天，我们发布了最新的生成式媒体模型，这些模型代表了重大的突破。它们可以创建令人惊叹的图像、视频和音乐，从而帮助艺术家们将他们的创意变为现实。它们还为每个人提供了表达自我的强大工具。

Veo 3 和 Imagen 4，是我们最新的视频和图像生成模型，它们凭借着开创性的新功能，推动了媒体生成的前沿。我们还在扩大对 Lyria 2 的访问权限，从而为音乐家提供更多创作音乐的工具。最后，我们邀请视觉故事讲述者试用 Flow，这是我们全新的 AI 电影制作工具。借助 Google DeepMind 最先进的模型，Flow 使你能够编织电影，并更精细地控制角色、场景和风格，从而将你的故事变为现实。

我们与创意产业（电影制作人、音乐家、艺术家、YouTube 创作者）密切合作，以负责任的方式塑造这些模型和产品，并为创作者提供新的工具，以实现 AI 在其艺术中的可能性。

Veo 3：视频，遇见音频

Veo 3，我们最新的最先进的视频生成模型，不仅提高了 Veo 2 的质量，而且首次能够生成带有音频的视频——城市街道场景中的交通噪音、公园里鸟儿的歌唱，甚至是角色之间的对话。

从文本和图像提示到现实世界的物理和准确的口型同步，Veo 3 在各个方面都表现出色。它非常擅长理解；你可以在提示中讲述一个简短的故事，该模型会返回一个剪辑，将其变为现实。Veo 3 现已在美国的 Gemini 应用Gemini app和 Flow中提供给 Ultra 订阅者。它也适用于 Vertex AI上的企业用户。

Veo 2 更新：专为电影制作人打造的新功能

在推进 Veo 3 的同时，我们还根据与创作者和电影制作人的合作，为我们流行的 Veo 2 模型添加了新功能。今天，我们推出了其中几个新功能，包括：

我们最先进的参考驱动视频功能允许你为 Veo 提供人物、场景、物体甚至风格的图像，以便更好地进行创意控制和一致性。
相机控制可帮助你定义精确的相机运动，包括旋转、滑轨和变焦，以获得完美的镜头。
Outpainting 允许你扩大框架，将视频从纵向变为横向，从而更轻松地适应任何屏幕尺寸，智能地添加到场景中。
对象添加和删除允许你在视频中添加或删除对象。Veo 了解比例、交互和阴影，并利用这种理解来创建自然、逼真的场景。

参考驱动视频和相机控制现已在 Flow 中提供。我们很高兴在未来几周内将所有这些新功能引入 Vertex AI API，并在未来几个月内引入更多产品。

Flow：专为 Veo 设计的 AI 电影制作工具

Flow是与创意人员一起构建的 AI 电影制作工具，它通过整合 Google DeepMind 最先进的模型：Veo、Imagen 和 Gemini，使你能够无缝地创建电影剪辑、场景和故事。使用自然语言向 Flow 描述你的镜头，在一个方便的地方管理你的故事素材（演员、地点、物体和风格），并使用 Flow 将你的叙述编织成美丽的场景。

Flow 现已在美国面向 Google AI Pro 和 Ultra 计划订阅者提供，更多国家/地区即将推出。

Imagen 4：令人惊叹的质量和卓越的排版

我们最新的 Imagen 模型将速度与精度相结合，以创建令人惊叹的图像。Imagen 4 在精细细节（如复杂的织物、水滴和动物皮毛）方面具有非凡的清晰度，并且在照片般逼真和抽象风格方面表现出色。Imagen 4 可以创建各种宽高比和高达 2k 分辨率的图像 - 对于打印或演示文稿来说更加出色。它在拼写和排版方面也得到了显着改进，从而可以更轻松地创建自己的贺卡、海报甚至漫画。

Imagen 4 现已在 Gemini 应用Gemini app、Whisk、Vertex AI 以及 Workspace 中的 Slides、Vids、Docs 等产品中提供。

很快，我们还将推出 Imagen 4 的快速变体，其速度比 Imagen 3 快 10 倍，因此你可以更快地探索想法。

Lyria 2：强大的组合和无限的探索

今年 4 月，我们扩大了对由 Lyria 2 提供支持的 Music AI Sandbox 的访问权限。Music AI Sandbox 为音乐家、制作人和词曲作者提供了一套实验性工具，这些工具可以激发新的创作可能性，并帮助艺术家探索独特的音乐创意。来自音乐行业的专业知识和宝贵反馈有助于我们确保我们的工具能够增强创作者的能力，同时邀请创意人员实现 AI 在其艺术中的可能性。

Lyria 2 带来了强大的组合和无限的探索，现在通过 YouTube Shorts面向创作者以及在 Vertex AI 面向企业提供。我们还通过 API和 AI Studio提供了 Lyria RealTime，我们的互动式音乐生成模型，为 MusicFX DJ提供支持。Lyria RealTime 允许任何人实时交互式地创建、控制和演奏生成音乐。

负责任的创作以及与创意社区的合作

自 2023 年推出以来，SynthID已经为超过 100 亿张图像、视频、音频文件和文本添加了水印，从而帮助识别它们为 AI 生成的内容，并减少了错误信息和错误归因的可能性。由 Veo 3、Imagen 4 和 Lyria 2 生成的输出将继续具有 SynthID 水印。

今天，我们推出了 SynthID Detector，一个验证门户，以帮助人们识别 AI 生成的内容。上传一段内容，SynthID Detector 将识别整个文件或仅文件的一部分是否具有 SynthID。

通过我们所有的生成式 AI 模型，我们旨在释放人类的创造力，并使艺术家和创作者能够比以往更快、更轻松地将他们的想法变为现实。