自从OpenAI公布全新的生成式人工智能模型Sora之后,可谓是“一石激起千层浪”,相关的讨论一直没有停止。
文章源自玩技e族-https://www.playezu.com/814302.html
关于这个号称“只要输入文本指令,就能输出60秒视频”的新工具,人们感到期待、焦虑、恐惧……共同组成了一幅巨大的“Sora乱象图”。一方面,各种标签上写着“该视频由Sora生成”,但实际上是网友制作的搞怪视频成为了“整活”的流量密码,让不少网络乐子人收获了欢乐。文章源自玩技e族-https://www.playezu.com/814302.html
文章源自玩技e族-https://www.playezu.com/814302.html
网友将搞怪视频打上“该视频由sora生成的标签”文章源自玩技e族-https://www.playezu.com/814302.html
另一方面,虽然Sora并没有开放使用,但网络上却出现了一大批“培训机构”,利用行业焦虑和信息不对称,打起了收割韭菜的算盘。一个自称清华博士的卖课博主,入门AI课达到了199元一份,光是在视频号里,就卖出了520多份。还有人扒出,这门AI课他一年售出了25万套,销售额将近5000万。于是网友们纷纷阴阳怪气地称他为:唯一可以与奥特曼平起平坐的AI巨头。文章源自玩技e族-https://www.playezu.com/814302.html
文章源自玩技e族-https://www.playezu.com/814302.html
网友制作的梗图文章源自玩技e族-https://www.playezu.com/814302.html
Sora究竟是什么?文章源自玩技e族-https://www.playezu.com/814302.html
Sora,源自日语“空(そら,发音为sora)”,不仅指代天空,还象征着无垠的空间和无限的可能性,从而引申出自由的寓意。在OpenAI关于Sora的介绍中,首页就可以看到无数在空中自由飞翔的纸飞机,象征着Sora模型的自主性和创造性,反映出“空”所蕴含的自由理念。文章源自玩技e族-https://www.playezu.com/814302.html
文章源自玩技e族-https://www.playezu.com/814302.html
Sora介绍页面
关于Sora生成的各种视频我想大伙应该都已经见得不少了,相信很多人在看完视频之后都会有一个疑问:Sora是如何生成视频的呢?
在OpenAI放出的技术报告中是这样描述Sora的:Sora是一个“扩散变换器(Diffusion Transformer)”。与传统的变换器(包括编码器和解码器)在处理方式上存在类似之处,但其处理的并不是文本标签,而是被称为“补丁(Patches)”的视觉数据。
补丁(Patches),其实就是大模型在处理视频和图像数据时,将视觉数据分解成小块或小部分的一种方法。通过将视频压缩到一个低维度的潜在空间,把空间的标识分解成为多个补丁,以此来让模型更好地处理和生成高质量的视频和图像内容。这种方法的优势在于能够允许模型处理不同分辨率、持续时间和宽高比的视觉数据,为视频和图像生成提供了更大的灵活性和能力。
视觉编码过程
而“扩散变换器”则是一种结合了扩散模型和变换器架构的技术,能够通过利用变换器处理数据间复杂关系的能力,以及扩散模型逐步精炼数据的策略,来生成或预测视频和图像中的“干净”补丁,逐步从包含噪声的数据中恢复出干净的数据,来生成图像或视频。
我们举个简单的例子,假如我们现在有一张狗狗的照片,我们可以一步步给这张照片增加噪点,让它变得越来越模糊,最终会变成一堆杂乱的噪点。如果我们把这个过程倒过来,对于一堆杂乱无章的噪点,我们同样可以一步步去除噪点,把它还原成目标图片,而扩散模型的关键就在于学会逆向去除噪点。
事实上,此前大火的Midjourney和Stable Diffusion的图像和视频生成器就同样基于扩散模型,不过不同的是Sora能够通过让模型一次预测多帧画面,确保了即使被摄体在离开视线后仍然能保持不变,也使其展示出了对影视拍摄语法的全新自发理解,不仅可以跟随对象移动镜头,还可以在移动镜头转换角度的时候,仍然能够保持画面的合理与完整。
Sora另一个很强的地方在于,它“继承”了OpenAI对文本的理解能力,能够根据提示词生成高质量的图片和视频,并且能够对视频进行向前或向后的扩展,例如,在这个官网展示的这个视频中,Sora能够基于同一个视频开头进行拓展,延伸出不一样的结尾,或从不同的开头引入,最终得到同一个结尾。
三个视频开头最终都会走向同一个结尾
不过事实上,OpenAI的野心远不止于此,Sora不仅是一个创造性的工具,它实际上还是一个基于数据的复杂模拟系统,能够模拟现实或想象中的世界。它通过学习如何正确地渲染场景、模拟物理行为、进行长期推理和理解场景的含义,从而创建出逼真的 3D 场景和动画。
这就使其能够创造出很多现实中不存在的视频,例如在下面这个视频中,提示词为“两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频”。这样的要求不仅需要Sora生成一个逼真的3D模型,还需要让这些模型根据物理规则动画化,并模拟液体的动力学,还要使用高级渲染技术来实现照片级的真实感,即使场景的语义在现实世界中并不存在,但引擎仍然能实现我们期望的正确物理规则。
这一点虽然目前Sora仍有缺陷,但确是一个很有前景的目标,通过建立这样一个复杂的模拟系统,我们就能够对真实世界进行建模和预测,甚至是构建起真实世界的数字交互。无论Google、OpenAI还是马斯克的xAI,终极目的都是构建起世界模型,就比方说电影《流浪地球2》里面的MOSS,就是一个强人工智能的化身,能够通过构建真实世界模型,再加上强大的算力,来推演不同选择导致的结果,达到预测的目的,这或许就是很多人眼中AI的终极形态了吧。
不过无论如何,这些都是后话了。
Sora真会砸掉整个影视行业的饭碗?
事实上,人工智能从诞生的那一天起,就常常会成为很多人幻想中的“假想敌”,而随着ChatGPT等新工具的发展,对于AI的遥远恐惧渐渐演变成了近在眼前的对饭碗的深深担忧,在Sora发布后更是如此。
单就Sora生成视频的能力来看,首当其冲的必然是影视从业者。毕竟传统方式制作一段1分钟的视频成本非常高,除了场景、灯光、演员,还要提前沟通分镜、找好角度、考虑好摄像机与演员的走位等。如果再需要一些特殊因素,例如转瞬即逝的光影、理想的天气条件等,那就更要赌一赌运气了。
而这一切在Sora这里都不是问题,只要通过简单的提示语句,就可以直接生成视频,而且相较于之前的AI工具,无论是视频的时长、画面精细度,还是细节的完整性,甚至是多镜头拍摄,Sora都可以用“碾压”来概括,很明显将会为相关从业者带来更大影响。
网友制作的梗图,好莱坞经典标识“HOLLYWOOD”变成了“SORAWOOD”
行业调查公司CVL Economics不久前发布的一项对好莱坞行业领袖的调查显示,目前忧虑的情绪正笼罩着整个好莱坞,36%的受访者表示生成式AI已经减少了他们公司的日常工作技能需求,72%的受访公司都是生成式AI工具的最早采用者。
而在这其中还有75%的受访者表示,生成式AI工具已经促使他们业务部门削减与合并相关的工作岗位。还有人预计,未来三年好莱坞总计会有超过20万人的工作岗位会受到AI冲击,其中尤其是视觉特效、音效师、画图师等后期工作岗位。
事实上,受到影响的并不只有影视行业从业者。面对来自Sora的“降维打击”,AI视频领域的创业者中,有的如Runway CEO克里斯托瓦尔·巴伦苏埃拉一样,做好了“Game On”的准备,有的如Pika创始人郭文景一样,开始筹备对标Sora的新产品,也有人如Stability AI CEO埃马德·莫斯塔克一样,不由感慨“阿尔特曼真是一个魔术师”,并将Sora视为AI视频界的GPT-3时刻。这一次,很多人真的感受到了危机感。
风物长宜放眼量
虽然Sora确实很劲爆,但如果因此而过分焦虑也大可不必。一方面由于Sora在其生成的视频中仍然存在很多经典的“灵魂错误”。例如在很多视频中,人物、动物会凭空消失、变形或者变出分身;还会出现一些违背物理常识的“闹鬼”画面,像人吹过的蜡烛没有变化、穿过篮筐的篮球、悬浮移动的椅子等。
Sora生成的视频中,老人吹蜡烛前后火苗纹丝不动,略显诡异
另一方面也在于,AI在视频生成的逻辑与人类的创作逻辑是截然不同的,这从根本上决定了Sora并不能真正辨别故事的好坏。毕竟影视是从人的情感出发,最后也以触动人类情感为目的,也许随着生成技术的发展,其视频逻辑、质量和对真实世界的模拟程度会有更高的提升,但却不能代替人类在影视制作过程中起到的作用。还有很多人认为,越是机器生成的东西,很多时候会愈发让我们感受到人类之作的珍贵,例如带着“锅气”的食物很多时候优于预制菜、凝聚了工人心血的器具虽然精确度不如机械但却有更多的“温度”……这样的例子可谓俯仰皆是,更何况是在影视这一最能体现人类情感、囊括各种艺术门类的综合艺术呢?
事实上,除开影视剧作、剧情设计等方面的元素,即使仅从视频呈现的而言,AI生成的内容在信息量上并不能与真实拍摄相比,例如在很多电影场景中,人物的表达、语气、表情的背后,不仅是各种细腻的人类情感,举手投足之间积累的是半生的经历、情绪与风土人情的总和。
这些内容虽然看似并不显眼,但却时时刻刻都在传达很多信息,正是这些内容才真正组合成了每一个与众不同的人,也经由各种反应、互动形成了人物之间情绪的流动,也正是这些细节的变化,在无声无息地影响着我们的情绪,为我们带来感动,这是生成式AI很难做到的,或许这才是很多AI生成视频看起来“没有灵魂”的根本原因。
几乎全片都由对话构成的经典电影《爱在黎明破晓前》
此外,在影视行业中使用AI早已不是新鲜事,此前曾在好莱坞横扫最佳影片、最佳导演等7大奖项的《瞬息全宇宙》就曾使用Runway的AI视频工具,去年21世纪福克斯已经与IBM沃森合作,用AI工具为关于AI主题的恐怖片《摩根》制作预告片,迪士尼旗下的漫威则完全使用AI制作了《秘密入侵》的开头动画。
不久前,NVIDIA创始人黄仁勋曾在一次参访中表示,“在过去的10年、15年中,几乎每个人都会告诉你,学计算机对孩子来说至关重要,每个人都该学习如何编程。但事实上,情况完全相反,我们的工作是创造计算技术,使得任何人都不再需要编程,使得编程语言变成人性的,现在世界上每一个人都是程序员,技术鸿沟已经完全弥合。”
而这似乎成为了AI时代的真实写照,无论ChatGPT-4也好、Sora也罢,通过借助日新月异的新技术,不懂编程语言的人也能够制作软件程序,没有影视相关技术背景的人也能够从容地制作自己的视频,这无疑将会进一步,激活新的产能,促进行业的发展,甚至是让人和人之间产生新的链接,这或许才是生成式AI的更大意义。
我们有理由期待,未来必然会有更多的AI技术和电影或电视剧制作的结合与创新,也许会出现一些我们从未想象过的精彩作品,给我们带来更多惊喜。
评论