“国产Sora”大模型崭露头角,商业化实现成关键挑战

共计 1628 个字符,预计需要花费 5 分钟才能阅读完成。

在4月27日的中关村论坛上,生数科技与清华大学联合推出了中国首个长时长、高一致性和高动态性的视频大模型——Vidu。该模型采用了团队自创的Diffusion与Transformer相结合的U-ViT架构,能够一键生成时长可达16秒、分辨率高达1080P的高清视频内容。Vidu不仅可以模拟真实的物理环境,还具备丰富的想象力,支持多镜头生成和高时空一致性等特性。

生成16秒视频的能力

与Sora相似,Vidu能够根据用户提供的文本描述,直接生成高质量且时长达到16秒的视频。除了在时长上的突破外,Vidu在视频效果方面也有显著提升,主要体现在以下几个方面:

模拟真实世界物理效果:该模型能够生成细节丰富的场景,并符合真实的物理规律,例如合理的光影变化和细腻的表情。

丰富的想象力:Vidu可以生成现实中不存在的虚构画面,创造出深度和复杂的超现实内容。

多镜头表现:Vidu能够生成复杂的动态镜头,而不再局限于简单的推拉镜头,它能够围绕统一的主体,在一段画面中实现远景、近景、中景和特写等多种镜头转换,包括长镜头、追焦和转场等效果,极大地丰富了视频的视觉语言。

高时空一致性:在16秒的时长内,Vidu能够确保视频内容的连贯性,随着镜头移动,人物与场景在时间和空间中的一致性得以保持。

理解中国文化元素:Vidu能够生成独特的中国元素,比如熊猫和龙等。

值得注意的是,该短片中的所有片段均为连续生成,没有明显的插帧现象。这种“一镜到底”的效果表明,Vidu采用了一步到位的生成模式。与Sora类似,文本转视频的过程直接且连贯,底层算法基于单一模型实现完全端到端的生成,不涉及中间插帧或多步骤处理。

补充说明:插帧通常是通过在每两帧之间增加一帧或多帧来提升视频长度或流畅度。这种方法需要逐帧处理视频,通过插入额外的帧来改善视频的长度与质量,属于分步骤的过程。然而,Vidu与Sora则通过单一步骤直接生成高质量视频,无需经过多个步骤的关键帧生成和插帧处理。

U-ViT融合架构的先行者

Vidu的迅速成功得益于团队在贝叶斯机器学习和多模态大模型方面的长期积累及多项原创成果。其核心技术U-ViT架构于2022年9月提出,早于Sora采用的DiT架构,成为全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。

2023年3月,团队开源了全球首个基于U-ViT架构的多模态扩散大模型UniDiffuser,率先在全球范围内完成了融合架构的大规模可扩展性验证。UniDiffuser经过在LAION-5B大规模图文数据集上的训练,拥有近10亿个参数,支持图文模态间的任意生成与转换。从架构来看,UniDiffuser在技术上领先同样基于DiT架构的Stable Diffusion 3一年。

自今年2月Sora发布以来,团队基于对U-ViT架构的深入理解和长期积累的工程与数据经验,在短短两个月内进一步突破了长视频的表示与处理关键技术,推出了Vidu视频大模型,显著提升了视频的连贯性及动态表现。

Vidu作为通用视觉模型,从图文任务的统一到视频能力的融合,能够支持生成更加多样化且时长更长的视频内容。展望未来,灵活的架构将使其兼容更广泛的模态,进一步拓展多模态通用能力的边界。

然而,对于大模型技术而言,最为关键的一步仍是商业化的落地。近期,国内商汤科技、科大讯飞等大模型公司相继公布了他们的最新研发成果,并对标国际上最先进的大模型。从业绩来看,相较于高额的研发投入,这些公司显然还未进入收获期。因此,如何实现商业化落地,将成为Vidu在对标Sora过程中必须面对的重要课题。

来源:今日头条
原文标题:“国产 Sora”大模型引关注,商业化落地仍是必答题 – 今日头条
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-04发表,共计1628字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!