4月27日,在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态性视频大模型Vidu正式发布。据悉,Vidu视频大模型是由清华大学与生数科技联合发布的中国首个长时长、高一致性、高动态性视频大模型。这一模型的发布,标志着中国在视频大模型技术领域取得了显著的进展,能够与国际上的先进模型如Sora相媲美。
清华大学人工智能研究院副院长、生数科技首席科学家朱军在论坛上表示,Vidu实现了“全栈自主创新”“多维全面突破”,一共有6大特点:模拟真实物理世界、富有想象力、具有多镜头语言、出色的视频时长、时空一致性高、理解中国元素。
|Vidu性能强劲
据介绍,Vidu模型采用了团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。
性能方面,Vidu不仅能够模拟真实物理世界,生成细节复杂且符合真实物理规律的场景,如合理的光影效果和细腻的人物表情,还拥有丰富的想象力,能够创造出具有深度和复杂性的超现实主义内容。
此外,Vidu能够生成复杂的动态镜头,实现远景、近景、中景、特写等不同镜头的切换,不再局限于简单的固定镜头。特别值得一提的是,Vidu能够理解并生成熊猫、龙等特有的中国元素,展现了对中国传统文化的深刻理解。
同时,Vidu的生成方式是“一步到位”的,文本到视频的转换直接且连续,基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理,这在技术上是一个重要的创新。
|背后公司生数科技受关注
作为Vidu的研发方之一,外界对于生数科技可能相对陌生。
生数科技成立于2023年3月,核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。
去年,生数科技完成多笔融资,投资方包括蚂蚁集团、锦秋基金等。今年3月,生数科技完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。
目前,生数科技团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇。在扩散模型方面,该团队的成果已涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
另外虽然成立时间不长,但生数科技已经开始推进大模型的商业化落地。一方面是以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。
截至目前,生数科技已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,同时,生数科技也于去年上线两款工具产品,分别是视觉创意设计平台PixWeaver金额3D资产创建工具VoxCraft。
竞泰观点|文生视频大模型正在加速应用渗透
全球多媒体巨头Adobe在官网宣布,将Sora、Pika、Runway等集成在视频剪辑软件Premiere Pro中(简称“PR”)。此外,Adobe已经在为Firefly开发视频模型,该模型将为PR中的视频和音频编辑工作流程提供动力;通过AI驱动的音频功能已普遍可用,可使音频的编辑更快、更轻松、更直观。据了解,Adobe存量用户规模达3300万,未来有望成为大模型的巨大市场。
文生视频有望推动视频创作者生产力革命,大幅降低生产成本、创作门槛,有望率先在短视频、动漫两大领域落地。文生视频模型在各个行业都具有广泛的应用空间,包括但不限于营销广告、研发培训、电商零售、文娱游戏等。
在全球范围内,AIGC市场规模预计将从2023年的670亿美元跃升至2030年的8970亿美元,这意味着该领域复合年增长率高达45%。对于中国市场,艾瑞咨询预计其产业规模或从2023年的143亿元人民币增至2030年11441亿元人民币,复合年增长率将达87%。