国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题

志东西

编辑ZeR0

走向通用人工智能,大模型又迈出了一大步。

智东西4月25日报道近日,由颜水成教授领衔,昆仑万伟2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开放了Vitron通用像素级视觉多模态语言模型。

Vitron解决了长期困扰大语言模型行业的图像/视频模型分离问题,支持从视觉理解到视觉生成,从低级到高级的一系列视觉任务,包括静态图像和动态视频内容的全面理解、生成、分割和编辑,能够处理复杂的视觉任务,擅长视觉理解和任务执行,支持与用户的连续操作,从而实现灵活的人机交互。

论文链接:https://is.gd/aGu0VV

开放源代码:https://github.com/SkyworkAI/Vitron

该模型在四个视觉相关任务中的功能支持和关键优势如下:

这显示了更统一的多模态通用视觉模型的巨大潜力,并为下一代通用视觉模型的最终形式奠定了基础。

首先,针对视觉任务的关键挑战,提出了一个统一的多模态语言模型。

构建一个更通用、更强大的多模态大语言模型(MLLM)被视为通向通用人工智能(AGI)的必由之路。

近年来,出现了许多擅长图像理解的研究成果,如BLIP-2、LLaVA、MiniGPT-4等。,通过引入可以进行视觉感知的模块,将基于纯语言的大语言模型(LLM)扩展到MLLM。专注于视频理解的MLLM也相继出现,包括VideoChat、Video-LLaMA和Video-LLaVA。

研究者主要尝试从两个维度进一步扩展MLLM的能力。

首先,尝试加深MLLMs对视觉的理解。从对图像的粗略实例级理解过渡到像素级的细粒度理解,从而实现视觉区域定位能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2。

二是尝试扩展MLLM可以支持的可视化功能。一些研究已经开始研究如何使MLLM不仅理解输入视觉信号,而且支持输出视觉内容的生成。比如吉尔、鸸鹋等机型可以灵活生成图像内容,而GPT4Video和NExT-GPT则实现了视频生成。

目前AI界认为,可视化的MLLMs必然会向高度统一、更加强大的方向发展。

在这条道路上有一些关键的挑战。比如很大一部分工作没有实现细粒度的像素级视觉理解,或者缺乏对图像和视频的统一支持,或者对各种视觉任务的支持不足,与一般的大模型相差甚远。

下表简要总结了一些现有的可视化MLLM模型的功能:

研究人员认为,未来的MLLM应该是一种通用的语言模型,能够覆盖更广泛的视觉任务和操作,实现对所有视觉相关任务的统一支持,实现“一个对一个”的能力。这对于实际应用非常重要,尤其是在视觉创作中,视觉创作往往涉及一系列迭代和交互操作。

例如,用户通常从文本开始,并通过文本将想法转化为视觉内容。然后通过进一步的细粒度的图像编辑来完善最初的想法,添加更多的细节;然后,从图像生成视频,创建动态内容;最后进行视频剪辑等多轮迭代交互,完善创作。

为了弥补上述差距,研究团队提出了通用的像素级可视化MLLM——Vitron。

2.Vitron系统架构包括三个模块,模型训练有三个阶段。

Vitron采用了与现有相关MLLM类似的架构,包括三个关键部分:1)前端视觉&;语言编码模块;2)中央LLM理解和文本生成模块;3)后端用户响应并调用模块,可视化控制模块。

▲Vitron整体框架

基于上述架构,对Vitron进行训练和微调,实现更强的视觉理解和任务执行能力。其模型训练主要包括三个阶段。

第一步:视觉语言整体对齐学习。将输入的视觉语言特征映射成统一的特征空,使其能够有效理解输入的多模态信号。这是一种粗粒度的视觉语言对齐学习,它可以使系统有效地处理作为一个整体的输入视觉信号。研究人员使用图像-标题对(CC3M)、视频-标题对(Webvid)和区域-标题对(RefCOCO)的现有数据集进行训练。

第二步:细粒度时间空视觉定位指令微调。系统采用调用外部模块的方法来执行各种像素级的视觉任务,但是LLM本身没有经过任何细粒度的视觉训练,这将阻碍系统实现真正的像素级视觉理解。因此,研究人员提出了一种细粒度的time 空视觉定位指令微调训练,其核心思想是使LLM能够定位图像的细粒度空间性和视频的具体时序特征。

第三步:在输出端微调命令调用的指令。上述第二阶段的训练使LLM和前端编码器具备了像素级的视觉理解能力。最后一步,针对命令调用的指令微调,旨在使系统具有准确执行命令的能力,并允许LLM生成适当和正确的调用文本。

由于不同的终端视觉任务可能需要不同的调用命令,为了统一这一点,研究人员提出将LLM的响应输出标准化为结构化的文本格式,包括:

第三,评估四大视觉任务的表现,展示灵活的人机交互能力。

基于Vitron,研究人员对22个常用基准数据集和12个图像/视频视觉任务进行了广泛的实验评估。Vitron在四大视觉任务组(分割、理解、内容生成和编辑)中表现优异,具有灵活的人机交互能力。

以下代表性地显示了一些定性比较结果:

视觉分割:

▲图像是指图像分割的结果。

精细的视觉理解:

▲图像目标指的是理解结果。

▲视频QA结果

视频生成:

▲文圣图豌豆荚手机精灵助手

▲文生视频

▲图片视频

视觉编辑:

▲图片编辑结果

更详细的实验内容和细节见论文。

结论:未来可以探索三个方向,即系统架构、用户交互和模态能力。

Vitron在综合性、技术创新、人机交互和应用潜力等方面显示出独特的优势和潜力,有助于推动多模态大模型的发展,为未来可视化大模型的研究提供了新的方向。

昆仑万伟2050全球研究院一直致力于打造面向未来世界的优秀科研机构,与科学界一起跨越“奇点”,探索未知世界,创造美好未来。该研究所此前发布并开放了数字智能体研发工具包AgentStudio,未来将继续推动AI技术突破。

他的团队联合开发的Vitron系统显示了很强的通用能力,但仍有一些局限性。

研究人员列出了未来可以进一步探索的三个方向:

1.系统结构

Vitron系统仍然使用半关节和半代理来调用外部工具。虽然这种基于调用的方法方便扩展和替换潜在模块,但也意味着这种流水线结构的后端模块不参与前端和LLM核心模块的联合学习。这种限制不利于系统的整体学习,意味着不同视觉任务的性能上限会受到后端模块的限制。

未来的工作应该将各种视觉任务模块整合成一个统一的单元。实现图像和视频的统一理解和输出,同时通过单一生成范式支持生成和编辑能力,仍然是一个挑战。

目前比较有前途的方法是结合情态-持续标记化,提高系统在不同输入输出和各种任务中的统一性。

2.用户交互

与之前专注于单一视觉任务的模型(例如,稳定扩散和SEEM)不同,Vitron旨在促进LLM与用户的深度互动,类似于业界OpenAI和Midjourney的DALL-E系列。实现最佳的用户交互是这项工作的核心目标之一。

Vitron使用现有的基于语言的LLM,结合适当的指令调整,实现一定程度的交互。例如,系统可以灵活地响应用户输入的任何预期消息,并产生相应的可视化操作结果,而不需要用户输入精确匹配后端模块条件。6100日元是多少人民币

不过这部作品在增强互动性空方面还是有很大的提升。比如从闭源的Midjourney系统中汲取灵感,无论LLM在每一步做出什么决策,系统都要主动向用户提供反馈,保证用户的行动和决策与用户的意图一致。

3.模态能力

目前Vitron已经集成了一个7B的骆马模型,可能对语言、图像、视频的理解能力有一定的限制。小米5x的参数

未来的探索方向可以开发一个全面的端到端系统,比如扩大模型的规模,实现对视觉更透彻全面的理解。另外,要努力让LLM完全统一对图像和视频模式的理解。

您可能还喜欢...