QVQ-Max:用证据思考
QVQ-Max:用证据思考
2025年3月28日 · 4 分钟 · 829 字 · Qwen Team | 翻译:
QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD
介绍#
去年12月,我们发布了 QVQ-72B-Preview 作为一个探索性模型,但它存在很多问题。今天,我们正式发布视觉推理模型的第一个版本 QVQ-Max。该模型不仅可以“理解”图像和视频中的内容,还可以分析和推理这些信息以提供解决方案。从数学问题到日常问题,从编程代码到艺术创作,QVQ-Max 都展示了令人印象深刻的能力。虽然这只是我们的第一个版本,但它的潜力已经引人注目。
MathVision 是一个聚合各种具有挑战性的多模态数学问题的基准,我们根据模型在该基准上的表现来评估其解决复杂数学问题的能力。如图所示,通过调整模型思考过程的最大长度,我们观察到模型在 MathVision 上的准确性不断提高,这表明了该模型的巨大潜力。
在以下章节中,我们将讨论 QVQ-Max 背后的设计理念、它的实际能力以及它能为您做什么。
为什么我们需要视觉推理?#
传统的 AI 模型主要依赖于文本输入,例如回答问题、撰写文章或生成代码。然而,在现实生活中,很多信息并非通过文字表达,而是通过图像、图表甚至视频。一张图片可以包含丰富的细节,例如颜色、形状、空间关系等等。这些元素通常比文本更直观,但也更复杂。
例如,如果您想确定建筑蓝图是否合理,仅凭描述可能不足以判断。但是,如果您能够看到蓝图并利用专业知识对其进行分析,则任务会变得容易得多。这就是视觉推理的意义——它使 AI 不仅能够“看到”,还能够“理解”和“思考”。
我们设计 QVQ-Max 的目标很简单:创建一个既“目光敏锐”又“思维敏捷”的助手,能够为用户解决各种实际问题。
核心能力:从观察到推理#
QVQ-Max 的能力可以概括为三个方面:详细观察、深度推理和灵活应用。让我们分解一下它在每个领域的表现。
- 详细观察:捕捉每一个细节 QVQ-Max 擅长解析图像,无论是复杂的图表还是日常生活中拍摄的随意快照。它可以快速识别图像中的关键元素。例如,它可以告诉您照片中有哪些物体,存在哪些文本标签,甚至可以指出您可能忽略的小细节。
- 深度推理:不仅仅是“看到”,而是“思考” 识别图像中的内容是不够的。QVQ-Max 可以进一步分析这些信息,并将其与背景知识结合起来以得出结论。例如,在几何问题中,它可以根据随附的图表推导出答案。在视频片段中,它可以根据当前场景预测接下来可能发生的事情。
- 灵活应用:从解决问题到创造 除了分析和推理之外,QVQ-Max 还可以执行有趣的任务,例如帮助您设计插图、生成短视频脚本,甚至根据您的要求创建角色扮演内容。如果您上传一个粗略的草图,它可以帮助您将其完善成完整的作品。上传一张普通的照片,它可以转变为敏锐的评论家,甚至是算命先生。
演示案例#
QVQ-Max 具有广泛的应用,无论是在学习、工作还是日常生活中,它都可以在许多场景中派上用场。
- 工作场所工具:在工作中,QVQ-Max 可以协助完成数据分析、整理信息,甚至编写代码
- 学习助手:对于学生来说,QVQ-Max 可以帮助解决数学和物理等科目中的难题,尤其是那些带有图表的难题。它还可以用直观的方式解释复杂的概念,使学习更容易。
- 生活帮手:在日常生活中,QVQ-Max 可以提供实用的建议。例如,它可以根据您衣柜的照片推荐服装搭配,或者根据食谱图片指导您烹饪一道新菜。
多图识别 (1/5) 下一步 QVQ-Max-Preview 数学推理 (2/5) 下一步 QVQ-Max-Preview 解读手相(仅供参考)(3/5) 下一步 QVQ-Max-Preview 视频理解 (4/5) 下一步 QVQ-Max-Preview 通过观看视频学习编码 (5/5) 下一步 QVQ-Max-Preview
下一步#
当前版本的 QVQ-Max 只是第一个迭代版本,仍有很大的改进空间。展望未来,我们将专注于以下几个关键领域:
- 更准确的观察:通过 grounding 技术提高识别准确率,该技术验证从视觉内容中获得的观察结果。
- Visual Agent:提高模型处理多步骤和更复杂任务的能力,例如操作智能手机或计算机,甚至玩游戏。
- 更好的互动:扩展到基于文本的互动之外,包括更多模式,例如工具验证和视觉生成,从而实现更丰富的用户体验。
总而言之,QVQ-Max 是一款兼具“视觉”和“智能”的视觉推理模型。它不仅仅是识别图像中的内容;它将这些信息结合起来进行分析、推理,甚至完成创造性任务。虽然它仍处于发展阶段,但已经显示出巨大的潜力。通过不断优化,我们的目标是使 QVQ-Max 成为真正实用的 Visual Agent,帮助每个人解决现实世界中的问题。 © 2025 Qwen Powered by Hugo