2月16日,美国人工智能研究公司OpenAI推出了一款视频生成模型“Sora”。其官网介绍称,使用这款模型可以用文本生成长达一分钟的视频,视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。
|Sora能够生成多个复杂场景
根据OpenAI官网,Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。Sora不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
在部分场景中,Sora的效果足以“以假乱真”,目前OpenAI官网上已经更新了48个Sora生成的视频demo,色彩艳丽,效果逼真。
来自OpenAI Sora的AI生成视频图像:猛犸象在雪地中行走
需要注意的是,目前Sora属于半成品,OpenAI称,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。
OpenAI官网介绍,Sora是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换生成视频。Sora能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见,OpenAI解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。
与GPT模型类似,Sora使用Transformer架构。Sora建立在过去对DALL·E和GPT模型的研究之上。 它使用DALL·E 3的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更精准遵循生成用户的文本指令。
OpenAI表示,Sora是能够理解和模拟现实世界的模型基础,相信这一功能将成为实现AGI(通用人工智能)的重要里程碑。
|Sora视频一出,立刻震惊业界
尽管这不是首个AI视频,其他企业也有类似文本生成视频的AI模型,谷歌正在测试名为Lumiere的模型,Meta则有名为Emu的模型,还有人工智能初创企业Runway也在开发相应产品来帮助制作视频,但外媒指出,工智能专家和分析师表示,Sora视频的长度和质量超出了迄今为止所见的水平。
美国伊利诺伊大学香槟分校信息科学教授Ted Underwood指出,没想到在两三年内还会有如此持续连贯水平的视频生成技术,OpenAI的视频可能展现了该模型的最佳性能。
多名AI从业者称,从Sora公布的预览视频来看,简直太“疯狂”。在国外Reditt社区,有个网友提问,今天OpenAI公布的Sora模型是否会成为自动化对于经济影响的里程碑?下面有将近100条回复,有网友称,起初ChatGPT的发布让用户看到了一切皆有可能,而现在人工智能正在不断进步发展,让用户看到了强大的技术能力。
|AI行业都“卷”起来了
日前,Meta也公布了一种视频联合嵌入预测架构技术V-JEPA。这是一种通过观看视频教会机器理解和模拟物理世界的方法,V-JEPA可以通过自己观看视频来学习,而不需要人类监督,也不需要对视频数据集进行标记,甚至根据一张静止图片来生成一个动态的视频。
与其他模型相比,V-JEPA的灵活性使其在训练和样本效率上实现了1.5到6倍的提升。另外,在图像分类中,它可识别图像中的主要对象或场景;动作分类方面,它识别视频片段中的特定动作或活动;时空动作检测方面,可识别视频中动作的类型及其发生的具体时间和位置。
跑分方面,V-JEPA在Kinetics-400达到了82.0%的准确率;Something-Something-v2达到了72.2%的准确率;ImageNet1K图像分类任务上达到了77.9%的准确率。
Meta称,这是人工智能模型迈出的又一重要一步利用对世界的学习理解来计划、推理和完成复杂的任务。而且,V-JEPA展示了Meta在通过视频理解推进机器智能方面的先进成就,为实现更高级的机器智能和人工通用智能(AGI)奠定基础。
总结看,2024年开年,AI大模型技术进展全面加速,视频、图像、文本生成能力比一年前大大增强。如果说,2023年还是AI图文生成元年的话,今年OpenAI将推动行业进入”AI视频生成元年”。
竞泰观点|2024年行业或取得更大的发展
近年视觉算法在泛化性、可提示性、生成质量和稳定性等方面突破将推动技术拐点到来以及爆款应用出现。3D资产生成、视频生成等领域受益于扩散算法成熟,但数据与算法难点多于图像生成,考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型,2024年行业或取得更大的发展。
2023年末至2024年初,Pika、HeyGen等AI文生视频应用陆续出圈,验证了多模态技术的不断进步与成熟。刚刚公布的的Sora模型无疑加剧了这一赛道的激烈竞争。