国产多模态大模型狂飙！颜水成挂帅开源Vitron，破解图像/视频模型割裂问题

由 pu · 2024年4月26日

志东西

编辑ZeR0

走向通用人工智能，大模型又迈出了一大步。

智东西4月25日报道近日，由颜水成教授领衔，昆仑万伟2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开放了Vitron通用像素级视觉多模态语言模型。

Vitron解决了长期困扰大语言模型行业的图像/视频模型分离问题，支持从视觉理解到视觉生成，从低级到高级的一系列视觉任务，包括静态图像和动态视频内容的全面理解、生成、分割和编辑，能够处理复杂的视觉任务，擅长视觉理解和任务执行，支持与用户的连续操作，从而实现灵活的人机交互。

论文链接:https://is.gd/aGu0VV

开放源代码:https://github.com/SkyworkAI/Vitron

该模型在四个视觉相关任务中的功能支持和关键优势如下:

这显示了更统一的多模态通用视觉模型的巨大潜力，并为下一代通用视觉模型的最终形式奠定了基础。

首先，针对视觉任务的关键挑战，提出了一个统一的多模态语言模型。

构建一个更通用、更强大的多模态大语言模型(MLLM)被视为通向通用人工智能(AGI)的必由之路。

近年来，出现了许多擅长图像理解的研究成果，如BLIP-2、LLaVA、MiniGPT-4等。，通过引入可以进行视觉感知的模块，将基于纯语言的大语言模型(LLM)扩展到MLLM。专注于视频理解的MLLM也相继出现，包括VideoChat、Video-LLaMA和Video-LLaVA。

研究者主要尝试从两个维度进一步扩展MLLM的能力。

首先，尝试加深MLLMs对视觉的理解。从对图像的粗略实例级理解过渡到像素级的细粒度理解，从而实现视觉区域定位能力，如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2。

二是尝试扩展MLLM可以支持的可视化功能。一些研究已经开始研究如何使MLLM不仅理解输入视觉信号，而且支持输出视觉内容的生成。比如吉尔、鸸鹋等机型可以灵活生成图像内容，而GPT4Video和NExT-GPT则实现了视频生成。

目前AI界认为，可视化的MLLMs必然会向高度统一、更加强大的方向发展。

在这条道路上有一些关键的挑战。比如很大一部分工作没有实现细粒度的像素级视觉理解，或者缺乏对图像和视频的统一支持，或者对各种视觉任务的支持不足，与一般的大模型相差甚远。

下表简要总结了一些现有的可视化MLLM模型的功能:

研究人员认为，未来的MLLM应该是一种通用的语言模型，能够覆盖更广泛的视觉任务和操作，实现对所有视觉相关任务的统一支持，实现“一个对一个”的能力。这对于实际应用非常重要，尤其是在视觉创作中，视觉创作往往涉及一系列迭代和交互操作。

例如，用户通常从文本开始，并通过文本将想法转化为视觉内容。然后通过进一步的细粒度的图像编辑来完善最初的想法，添加更多的细节；然后，从图像生成视频，创建动态内容；最后进行视频剪辑等多轮迭代交互，完善创作。

为了弥补上述差距，研究团队提出了通用的像素级可视化MLLM——Vitron。

2.Vitron系统架构包括三个模块，模型训练有三个阶段。

Vitron采用了与现有相关MLLM类似的架构，包括三个关键部分:1)前端视觉&；语言编码模块；2)中央LLM理解和文本生成模块；3)后端用户响应并调用模块，可视化控制模块。

▲Vitron整体框架

基于上述架构，对Vitron进行训练和微调，实现更强的视觉理解和任务执行能力。其模型训练主要包括三个阶段。

第一步:视觉语言整体对齐学习。将输入的视觉语言特征映射成统一的特征空，使其能够有效理解输入的多模态信号。这是一种粗粒度的视觉语言对齐学习，它可以使系统有效地处理作为一个整体的输入视觉信号。研究人员使用图像-标题对(CC3M)、视频-标题对(Webvid)和区域-标题对(RefCOCO)的现有数据集进行训练。

第二步:细粒度时间空视觉定位指令微调。系统采用调用外部模块的方法来执行各种像素级的视觉任务，但是LLM本身没有经过任何细粒度的视觉训练，这将阻碍系统实现真正的像素级视觉理解。因此，研究人员提出了一种细粒度的time 空视觉定位指令微调训练，其核心思想是使LLM能够定位图像的细粒度空间性和视频的具体时序特征。

第三步:在输出端微调命令调用的指令。上述第二阶段的训练使LLM和前端编码器具备了像素级的视觉理解能力。最后一步，针对命令调用的指令微调，旨在使系统具有准确执行命令的能力，并允许LLM生成适当和正确的调用文本。

由于不同的终端视觉任务可能需要不同的调用命令，为了统一这一点，研究人员提出将LLM的响应输出标准化为结构化的文本格式，包括:

第三，评估四大视觉任务的表现，展示灵活的人机交互能力。

基于Vitron，研究人员对22个常用基准数据集和12个图像/视频视觉任务进行了广泛的实验评估。Vitron在四大视觉任务组(分割、理解、内容生成和编辑)中表现优异，具有灵活的人机交互能力。

以下代表性地显示了一些定性比较结果:

视觉分割:

▲图像是指图像分割的结果。

精细的视觉理解:

▲图像目标指的是理解结果。

▲视频QA结果

视频生成:

▲文圣图豌豆荚手机精灵助手

▲文生视频

▲图片视频

视觉编辑:

▲图片编辑结果

更详细的实验内容和细节见论文。

结论:未来可以探索三个方向，即系统架构、用户交互和模态能力。

Vitron在综合性、技术创新、人机交互和应用潜力等方面显示出独特的优势和潜力，有助于推动多模态大模型的发展，为未来可视化大模型的研究提供了新的方向。

昆仑万伟2050全球研究院一直致力于打造面向未来世界的优秀科研机构，与科学界一起跨越“奇点”，探索未知世界，创造美好未来。该研究所此前发布并开放了数字智能体研发工具包AgentStudio，未来将继续推动AI技术突破。

他的团队联合开发的Vitron系统显示了很强的通用能力，但仍有一些局限性。

研究人员列出了未来可以进一步探索的三个方向:

1.系统结构

Vitron系统仍然使用半关节和半代理来调用外部工具。虽然这种基于调用的方法方便扩展和替换潜在模块，但也意味着这种流水线结构的后端模块不参与前端和LLM核心模块的联合学习。这种限制不利于系统的整体学习，意味着不同视觉任务的性能上限会受到后端模块的限制。

未来的工作应该将各种视觉任务模块整合成一个统一的单元。实现图像和视频的统一理解和输出，同时通过单一生成范式支持生成和编辑能力，仍然是一个挑战。

目前比较有前途的方法是结合情态-持续标记化，提高系统在不同输入输出和各种任务中的统一性。

2.用户交互

与之前专注于单一视觉任务的模型(例如，稳定扩散和SEEM)不同，Vitron旨在促进LLM与用户的深度互动，类似于业界OpenAI和Midjourney的DALL-E系列。实现最佳的用户交互是这项工作的核心目标之一。

Vitron使用现有的基于语言的LLM，结合适当的指令调整，实现一定程度的交互。例如，系统可以灵活地响应用户输入的任何预期消息，并产生相应的可视化操作结果，而不需要用户输入精确匹配后端模块条件。6100日元是多少人民币

不过这部作品在增强互动性空方面还是有很大的提升。比如从闭源的Midjourney系统中汲取灵感，无论LLM在每一步做出什么决策，系统都要主动向用户提供反馈，保证用户的行动和决策与用户的意图一致。

3.模态能力

目前Vitron已经集成了一个7B的骆马模型，可能对语言、图像、视频的理解能力有一定的限制。小米5x的参数

未来的探索方向可以开发一个全面的端到端系统，比如扩大模型的规模，实现对视觉更透彻全面的理解。另外，要努力让LLM完全统一对图像和视频模式的理解。

国产多模态大模型狂飙！颜水成挂帅开源Vitron，破解图像/视频模型割裂问题

您可能还喜欢...

今年科技发展资料(科技发展内容资料)

科技井喷式发展(中国科技井喷式发展)

十八项科技成果(党十八以来中国取得哪些科技成果)