绿茶通用站群绿茶通用站群

中国首个Sora级视频大 模型Vidu发布 生数科技与 清华联合推出

中国首个Sora级视频大 模型Vidu发布 生数科技与 清华联合推出

4月27日(rì),在中关村论坛未来人工(gōng)智能先锋论坛上,生(shēng)数科技联合清华大学正式(shì)发布中国首个(gè)长时长、高一致性、高动(dòng)态性视频大模型(xíng)——Vidu。该模型采用(yòng)团队(duì)原创的Diffusion与Transformer融合的架(jià)构U-ViT,支持一键生成长达16秒、分辨率(lǜ)高达1080P的高清视频内容。Vidu不仅能够模拟真实(shí)物理世界,还拥(yōng)有丰富想象力,具备(bèi)多镜头生成、时空一致性高等特点。Vidu是自Sora发(fā)布之后全球率先取得重大突破的视频大模型,性能全面(miàn)对标国际顶尖水平,并(bìng)在加速迭代(dài)提升中。

与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒(miǎo)的高质量视频。除了在时长方面的突破外,Vidu在视频效果(guǒ)方面实现显著提升,主要体现在几(jǐ)个方面:第一、模拟真实物理世(shì)界:能够生成细节复杂的场(chǎng)景,且符合真实的物理规律,例如合理的光影效(xiào)果、细(xì)腻的人物表情等(děng);第二、具有丰富想象力:能够生成真实生活的题记世界不存在的虚(xū)构画面(miàn),创造出具有深度和复杂性的超现实主义内容;第(dì)三、多镜头(tóu)语(yǔ)言(yán):能够生成(chéng)复杂的(de)动态镜头,不再局限于简单的推(tuī)、拉、移等固定镜头,而是能够 围绕(rào)统一主体在(zài)一段画面(miàn)里就实现远(yuǎn)景、近景、中景 、特写等不同镜头(tóu)的切换,包(bāo)括(kuò)能直(zhí)接生成长镜头、追焦 、转(zhuǎn)场等效(xiào)果,给视频注入镜头语言;第(dì)四(sì)、时空一致性高:在(zài)16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保(bǎo)持一致;第五、理解(jiě)中国元素:能够生(shēng)成特有 的(de)中国元(yuán)素,例如熊猫、龙等(děng)。

值得(dé)一(yī)提的(de)是,短片中的片段都是从头(tóu)到尾(wěi)连续生成(chéng),没有明显的插帧现象,从这种“一镜到底”的表现能够推测出(chū),Vidu采用的是“一步到位”的生成方(fāng)式,与Sora一样,文(wén)本(běn)到视频的转换是直接且连续的,在底层(céng)算法实现上是基于单(dān)一模型(xíng)完全端到端生成,不(bù)涉及中间(jiān)的插帧和其(qí)他多步骤的处理。 

Vidu的快速突破源自于团队在贝叶斯机器学(xué)习和多模态大模型(xíng)的长期积累和多项原创性成(chéng)果。其(qí)核心技术U-ViT架构由(yóu)团队(duì)于2022年9月(yuè)提出,早于Sora采(cǎi)用的DiT架构,是全(quán)球首个Diffusion与Transformer融合(hé)的架构,完(wán)全由团队自主研发。

2023年3月,团队开源全球首个基于U-ViT架构(gòu)的(de)多模态扩散大模型UniDiffuser,在全(quán)球范(fàn)围内率先完成融(róng)生活的题记合架构的大规模(mó)可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文(wén)数据集LAION-5B上训练(liàn)出的(de)近(jìn)10亿(yì)参数量模型,支持图文模(mó)态间的任意生成和转换。在(zài)架构上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。

自今年2月(yuè)Sora发布推(tuī)出后(hòu),团队基于对U-ViT架构的深入(rù)理解以及(jí)长期积累的工程与数据经 验,在短短两个月进一步突破长(zhǎng)视 频(pín)表示与处理关键技术,研发推出(chū)Vidu视频大模型(xíng),显著提升(shēng)视频的连贯性(xìng)与动态性(xìng)。

从图文任务的统一到融合视频能力,作(zuò)为通用视觉模型,Vidu能够支持生成更加多样化、更长时(shí)长的视频内容,同时面向未来,灵活架(jià)构(gòu)也将能够兼容更广泛的(de)模态(tài),进一步拓 展多模态通用能力的边界。

Vidu的问世,不仅(jǐn)是U-ViT融合架(jià)构在大规模视觉任务中的(de)又一次成功验(yàn)证,也代表了生数(shù)科技在多模态原(yuán)生大模型领域的持续创新(xīn)能力和领先性。同时生数科技(jì)表示,大模型的(de)突(tū)破是一个多维度、跨领域的综合性过程,需(xū)要(yào)技术生活的题记与(yǔ)产业应用的深度融合。生数科技正式推(tuī)出(chū)“Vidu大(dà)模型(xíng)合作伙伴计划”,希望产业链上下游(yóu)企业、研究机构能一起(qǐ)加入,共同构建(jiàn)合作生态。

校对:廖胜超(chāo)

未经允许不得转载:绿茶通用站群 生活的题记

评论

5+2=