中国版视频大模型Vidu发布！

网站首页 > 市场观察 > 行业动态

中国版视频大模型Vidu发布！

发布时间：2024-05-05

25421345-eHbRYS.jpg?auth_key=1714924799-

4月27日，在中关村论坛未来人工智能先锋论坛上，中国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。据悉，Vidu视频大模型是由清华大学与生数科技联合发布的中国首个长时长、高一致性、高动态性视频大模型。这一模型的发布，标志着中国在视频大模型技术领域取得了显著的进展，能够与国际上的先进模型如Sora相媲美。

25421345-Y86gYe.jpg?auth_key=1714924799-

清华大学人工智能研究院副院长、生数科技首席科学家朱军在论坛上表示，Vidu实现了“全栈自主创新”“多维全面突破”，一共有6大特点：模拟真实物理世界、富有想象力、具有多镜头语言、出色的视频时长、时空一致性高、理解中国元素。

｜Vidu性能强劲

据介绍，Vidu模型采用了团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

性能方面，Vidu不仅能够模拟真实物理世界，生成细节复杂且符合真实物理规律的场景，如合理的光影效果和细腻的人物表情，还拥有丰富的想象力，能够创造出具有深度和复杂性的超现实主义内容。

此外，Vidu能够生成复杂的动态镜头，实现远景、近景、中景、特写等不同镜头的切换，不再局限于简单的固定镜头。特别值得一提的是，Vidu能够理解并生成熊猫、龙等特有的中国元素，展现了对中国传统文化的深刻理解。

同时，Vidu的生成方式是“一步到位”的，文本到视频的转换直接且连续，基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理，这在技术上是一个重要的创新。

｜背后公司生数科技受关注

作为Vidu的研发方之一，外界对于生数科技可能相对陌生。

生数科技成立于2023年3月，核心团队来自清华大学人工智能研究院，此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

去年，生数科技完成多笔融资，投资方包括蚂蚁集团、锦秋基金等。今年3月，生数科技完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。

目前，生数科技团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇。在扩散模型方面，该团队的成果已涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

另外虽然成立时间不长，但生数科技已经开始推进大模型的商业化落地。一方面是以API的形式向B端机构直接提供模型能力，另一方面打造垂类应用产品，按照订阅等形式收费。

截至目前，生数科技已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作，同时，生数科技也于去年上线两款工具产品，分别是视觉创意设计平台PixWeaver金额3D资产创建工具VoxCraft。

竞泰观点｜文生视频大模型正在加速应用渗透

全球多媒体巨头Adobe在官网宣布，将Sora、Pika、Runway等集成在视频剪辑软件Premiere Pro中（简称“PR”）。此外，Adobe已经在为Firefly开发视频模型，该模型将为PR中的视频和音频编辑工作流程提供动力；通过AI驱动的音频功能已普遍可用，可使音频的编辑更快、更轻松、更直观。据了解，Adobe存量用户规模达3300万，未来有望成为大模型的巨大市场。

文生视频有望推动视频创作者生产力革命，大幅降低生产成本、创作门槛，有望率先在短视频、动漫两大领域落地。文生视频模型在各个行业都具有广泛的应用空间，包括但不限于营销广告、研发培训、电商零售、文娱游戏等。

在全球范围内，AIGC市场规模预计将从2023年的670亿美元跃升至2030年的8970亿美元，这意味着该领域复合年增长率高达45%。对于中国市场，艾瑞咨询预计其产业规模或从2023年的143亿元人民币增至2030年11441亿元人民币，复合年增长率将达87%。

上一条：竞泰研究｜飞机拆解产业——行业、产业篇

下一条：我们离真正的“AI手机”还有多远？

返回列表

统一服务热线：

18117862238

邮箱地址：zhangruxia@jt-capital.com.cn
公司地址：成都市高新区泰合·国际金融中心18层

快速链接

微信咨询
电话咨询

18117862238
返回顶部