清华系出手，推出全面对标Sora的视频大模型

由 pu · 2024年4月28日

志东西

作者ZeR0

编辑的影子

百度指数创建指数蛙

Zhidsomething月27日报道，在今天举行的2024中关村论坛主题日人工智能未来先锋论坛上，清华大学教授、声数科技首席科学家朱军宣布，声数科技与清华大学联合推出国内首个长时长、高一致性、高动态的原创视频模型Vidu。

公开融资信息显示，成立于去年3月的胜数科技是国内各大企业中累计融资金额和估值最高的类黑脸田鸡企业。到目前为止，它已经完成了数亿元的融资，投资者包括百度创投、知普爱、蚂蚁集团和秋瑾基金，其中大部分创始成员来自原字节跳动投资团队。

朱军在Pika、Gen-2、黑脸田鸡等行业展示了Vidu与现有文生视频模型的对比。他评价说，Vidu在16秒长时保持和语义理解方面很突出。

▲使用相同的提示，Vidu生成与Pika和Gen-2的视频对比。

▲使用相同的提示，Vidu和黑脸田鸡生成视频比较。

▲Vidu生成视频的一些动图。

Vidu可以根据文字描述直接生成16秒的高质量视频，生成的视频流畅连贯，无明显插帧现象。据报道，这是因为Vidu采用了“一步到位”的生成方式。像黑脸田鸡一样，从文本到视频的转换是直接而持续的。在底层算法的实现上，完全是基于单一模型的端到端，不需要经过关键帧生成和帧插入处理多个步骤。

一、一键生成16秒高清视频，Vidu有五大特点。

Vidu支持一键生成16秒1080P分辨率的高清视频内容，具有模拟真实物理世界、富于想象力、多镜头语言、高时间空一致性、理解中国元素等特点。

1.模拟真实的物理世界。它能生成复杂细致、符合物理规律的场景，如合理的光影效果、细腻的人物表情等等。

▲ Vidu输入复杂SUV在陡峭土路加速的场景描述后生成视频。

2.富有想象力。它可以生成现实世界中不存在的虚构图片，并创建具有深度和复杂性的超现实内容。

▲Vidu根据提示“演播室里一艘船正驶向镜头”生成的视频

3.多镜头语言。它可以生成复杂的动态镜头，不再局限于推、拉、移动等简单的固定镜头，而是可以围绕一个统一的主体，在一个画面中切换远景、近景、中景、近景等不同镜头，包括直接生成长镜头、对焦、转场等效果，并在视频中注入镜头语言。

▲Vidu根据提示生成了一段视频“在一个古色古香的海边小屋里，阳光沐浴着房间，镜头慢慢过渡到一个俯瞰宁静大海的阳台，最后镜头定格在漂浮的海面、帆船和倒影的云彩上”。

4，高时间空一致性。它在16秒的持续时间内是连续的和流畅的。随着镜头的移动，人物和场景可以在时间上保持一致，空。

▲Vidu的灵感来自维米尔的《戴珍珠耳环的女孩》根据提示“这是一只橘色的猫的肖像，长着蓝色的眼睛，慢慢旋转，屏幕上有珍珠耳环，棕色的头发像一顶荷兰帽，黑色背景和摄影棚灯光”。

5.了解中国元素。能够理解并创造独特的中国元素，如熊猫和龙。

▲Vidu根据提示“安静的湖面上，一只熊猫急切地弹着吉他，让整个环境活跃起来。在晴朗的日子空，平静的水面倒映出这一幕，被生动的全景镜头捕捉到，真实感与大熊猫活泼的精神融为一体，创造出活力与从容的和谐融合。

第二，快速突破源于多项原创成果，文生的视频能力在加速提升。

朱军表示，其快速突破离不开算法原理、模型架构、计算能力资源、数据管理和工程实现五大要素。xy助手cydia源

他表示，Vidu的快速突破源于长期积累和诸多原创成果，其技术路线与黑脸田鸡高度一致。2022年9月，他的团队在世界上推出了U-ViT网络架构，这是世界上第一个扩散变压器架构。在这个架构被提出三个月后，关于黑脸田鸡采用的同类基础设施DiT的论文发表了。

受限于计算能力，他的团队最初选择做计算量相对较小的大型模型的研发，比如文圣图、文圣3D。2023年3月，在全球推出并开辟了基于U-ViT架构的多模态大模型UniDiffuser，在全球率先完成融合架构的大规模标度律验证。UniDiffuser是在大规模图形数据集LAION-5B上训练的近10亿参数模型，支持图形模式间的任意生成和转换，在架构上领先同样DiT架构的Stable Diffusion 3一年。

同年5月，团队为文生3D提出了一个新的算法——多产梦想家。今年1月，它发布了一个4D框架，可动画的梦想家，并实现了一个可以生成4秒视频的文生视频模型。

“黑脸田鸡出来后，刺激了我们的研究速度。”朱军说，该团队立即着手解决关键问题。3月份视频时长超过8秒，4月份超过16秒。在短短两个月的时间里，实现了长视频表示和处理关键技术的突破，取得了今天的成果，显著提升了视频的连贯性和动态性。

电视软件破解版2021

结语:启动Vidu大模特合伙人计划，构建生态系统，推动视频大模特发展。

朱军解释说，视频这个名字有多重含义。第一，字面意思类似于“视频”，更深层次的意思也表达了三种愿景:

第一种是谐音“我们做”，“我们第一时间决定要做，马上做”；第二个是谐音“我们做了”。今天的进步虽然只是一小步，但确实在这个方向上有所突破；三是“我们一起做”，进展还在起步阶段。希望与国内优质单位合作，共同实现技术进步。

大尺度模型的突破是一个多维度、跨学科的综合过程，需要技术和产业应用的深度融合。为此，胜数科技正式启动“Vidu大模特合伙人计划”，推出合伙人申请频道，邀请产业链上下游的企业和研究机构，共同推动视频大模特的发展。

申请链接:https://shengshu . Fei Shu . cn/share/base/form/shrcnybsde 4 id 1 jna 5 eq 0 scv 1 ph。

清华系出手，推出全面对标Sora的视频大模型

您可能还喜欢...

科技人物发展(科技动漫人物)

今日最佳：这么近又那么远

财政部称挖掘农村新能源汽车消费潜力；华为即将发布超充新品丨明日主题前瞻