标题1:OpenAI发布的Sora在视频生成领域引爆社区,震撼效果背后是物理引擎模拟现实世界
标题2:Sora对竞品模型Runway、Pika等发起降维打击,视频生成质量优势明显
标题3:OpenAI发布的Sora视频生成模型,实现了视频生成的质的飞跃,开启了新时代
前几天,OpenAI发布的首个文本生成视频模型Sora引爆了社区,其生成的长达1分钟的高清、流畅视频令人们惊叹不已,直呼‘好莱坞的时代结束了’。仅仅一年时间,文本生成视频的效果迎来了质的飞跃。
当然,随着Sora加入这场视频生成领域的战争,受到冲击最大的是同类竞品模型,比如Runway、Pika、SDV、谷歌和Meta。看到Sora的生成效果之后,很多人认为,Sora对这些‘前辈’来了一波降维打击。事实真的如此吗?有推特博主已经做了对比。
这位博主给Sora、Pika、Runway、Stable Video四个模型输入了相同的prompt:“美丽、白雪皑皑的东京熙熙攘攘,镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位购物,绚丽的樱花花瓣随着雪花随风飘扬。”可以看到,相比于其他三个视频生成模型,Sora在生成时长、连贯性等方面都有显著的优势。
这样的对比还有很多,比如输入相同的prompt‘一窝金毛幼犬在雪地里玩耍,它们的头从雪中探出来,被雪覆盖。’再比如输入相同的prompt‘几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走来,长长的毛毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光、缕缕云彩和远处高高的太阳营造出温暖的光芒,低相机视野令人惊叹地捕捉到了大型毛茸茸的哺乳动物与美丽的摄影,景深。’虽然Runway和Pika表现都不错,但Sora的生成质量具有压倒性的优势。
还有人对比了Pika 1.0(去年四月)与Sora,感叹不到1年的时间,AI生成视频已经发生了翻天覆地的变化。
与此同时,更多创作者也晒出了他们使用Sora生成的视频,进一步验证了Sora的超强视频生成能力。比如输入prompt‘一座巨大的大教堂里全是猫。放眼望去,到处都是猫。一个男人走进大教堂,向坐在王座上的巨型猫王鞠躬。’比如输入prompt‘一座幽灵般的鬼屋,有友好的杰克灯笼和鬼魂人物,欢迎捣蛋鬼来到入口,倾斜移位摄影。’比如输入prompt‘一个由水制成的人行走着,参观了一个美术馆,里面有许多不同风格的美丽艺术品。’比如输入prompt‘人们在海滩放松的真实视频,一条鲨鱼从水中冒了出来,让所有人大吃一惊。’
在Sora震撼效果的背后,OpenAI也于昨日公布了详细的技术报告。报告重点展示了将所有类型的视觉数据转化为统一表示的方法,以及对Sora的能力和局限性进行的定性评估。Sora是视觉数据的通用模型,可以生成不同时间长短、长宽比和分辨率的视频和图像,最多可以输出长达一分钟的高清视频。
Sora的技术包括将视频压缩到较低维的潜在空间,然后将表示分解为时空patches,从而将视频转换为patches。通过训练一个降低视觉数据维度的网络,Sora可以在压缩的潜在空间中接受训练,并生成视频。同时,Sora还可以使用其他输入,如已有的图像或视频,实现各种图像和视频编辑任务。
虽然Sora目前还存在一些局限性,如不能准确模拟一些基本交互的物理现象,但其持续扩大的规模和创新能力使得视频模型能够更加精确地模拟物理和数字世界。Sora的发布标志着视频生成领域的质的飞跃,开启了新时代。
(XBeanAI数字人知识助理的观点)Sora作为OpenAI发布的首个文本生成视频模型,其强大的生成能力和优越的生成质量确实给视频生成领域带来了巨大的冲击。通过物理引擎模拟现实世界,Sora能够生成流畅、高清的视频,令人惊叹不已。相比其他竞品模型,Sora在生成时长、连贯性等方面都表现出明显的优势。随着技术的不断发展,视频生成将迎来更加精确、多样化的应用,为创作者和用户带来更好的体验。(完)