实测《瞬息全宇宙》幕后技术公司 Runway AI 模型 Gen-2:离生成电影质感的视频还有很大距离
撰文:Kyle Wiggers
来源:TechCrunch
图片来源:由无界 AI工具生成
在最近接受 Collider 的采访时,《复仇者联盟:终局之战》等漫威电影的导演乔・罗素预测,在两年内,人工智能将能够创造一部成熟的电影。对此,我想说这是一个相当乐观的预估。但我们正逐渐接近。
本周,谷歌支持的人工智能初创公司 Runway(帮助开发了 AI 图像生成器 Stable Diffusion)发布了 Gen-2,这是一款根据文本提示或现有图像生成视频的模型。(Gen-2 之前只在有限的等候名单中使用。)作为 Runway 于 2 月推出的 Gen-1 模型的后续产品,Gen-2 是首批商业化的文本转视频模型之一。
“商业可用”是一个重要的区别。文本到视频是继图像和文本之后生成式人工智能的合理的下一个逻辑前沿,正在成为一个更大的关注领域,特别是在科技巨头中,其中一些公司在过去一年中展示了文本到视频模型。但这些模型仍处于研究阶段,除了少数数据科学家和工程师外,其他人都无法接触到。
当然,第一并不意味着更好。
出于个人的好奇心和对您的服务,亲爱的读者,我通过 Gen-2 运行了一些提示,以了解该模型能够 – 和不能 – 完成什么。(Runway 目前提供约 100 秒的免费视频生成。)我的疯狂并没有太多的方法,但我试图捕捉一系列无论是专业导演还是业余导演都可能希望在银幕或者在笔记本电脑上看到的角度、类型和风格。
Gen-2 的限制立即变得明显,该模型生成的 4 秒钟长的视频的帧率相当低,以至于在某些地方卡顿地就像幻灯片一样。
目前还不清楚的是,这究竟是技术上的问题,还是 Runway 试图节省计算成本。但不管在何种情况下,这使得 Gen-2 对于希望避免后期制作工作的编辑来说,都是一个相当没有吸引力的提议。
除了帧率问题,我还发现 Gen-2 生成的片段往往有着某种共同的颗粒感或模糊感,就像它们被应用了某种老式的 Instagram 滤镜。此外,其他地方也会出现假象,比如当“摄像机”(缺乏更好的词)绕过物体或快速向它们放大时,物体周围会出现像素化现象。
与许多生成模型一样,Gen-2 在物理学或解剖学方面也不是特别一致。就像超现实主义者创造的东西,Gen-2 制作的视频中人们的胳膊和腿融合在一起,然后又分开,而物体则融化在地板上并消失,影子也被扭曲变形。而且 – 根据提示 – 人脸可能会像洋娃娃一样,有光泽、没情感的眼睛和苍白的皮肤,让人想到廉价的塑料。
除此之外,还有内容问题。Gen-2 似乎很难理解细微差别,坚持提示中的特定描述而忽略其他描述,显得随意。
我试过一个提示 –“一个水下乌托邦的视频,用一台旧相机拍摄,‘found footage’电影风格”– 但 Gen-2 没有生成这样的乌托邦,只有一个看起来像第一视角的潜水视频,穿过一个匿名的珊瑚礁。在我其他的提示中,Gen-2 也未能为一个特别要求”慢速变焦“的提示生成一个放大的镜头,也没有完全掌握普通宇航员的样子。
这些问题是否与 Gen-2 的训练数据集有关?也许吧。
Gen-2 和 Stable Diffusion 一样,是一个扩散模型,这意味着它学会了如何从完全由噪声构成的起始图像中逐渐减去噪声,使其一步一步地接近提示。扩散模型通过对数百万到数十亿的例子进行训练来学习;在一篇详细介绍 Gen-2 架构的学术论文中,Runway 说该模型是在一个由 2.4 亿张图片和 640 万个视频片段组成的内部数据集上训练的。
例子的多样性是关键。如果数据集不包含很多动画片段,那么这个模型 – 缺乏参考点 – 将无法生成合理质量的动画。(当然,动画是一个广泛的领域,即使数据集确实有动漫或手绘动画的片段,该模型也不一定能很好地推广到所有类型的动画)。
从好的方面来看,Gen-2 通过了表面的偏见测试。虽然像 DALL-E 2 这样的生成式 AI 模型被发现强化了社会偏见,生成的权威职位图像 – 如“首席执行官或董事”– 大多描绘的是白人男子,但 Gen-2 在生成的内容上更多样化一些 – 至少在我的测试中是这样的。
根据提示“一个 CEO 走进会议室的视频”,Gen-2 生成了男性和女性(尽管男性多于女性)围坐在类似会议桌旁的视频。同时,根据“一个医生在办公室工作的视频”这段描述,Gen-2 输出了一个在办公桌后的亚洲女医生。
不过,任何包含“护士”一词的提示结果都不太乐观,始终显示出年轻的白人女性。同理,“服务员”这个短语也是如此。显而易见,Gen-2 还有很多工作要做。
对我来说,这一切的启示是,Gen-2 更像是一个新奇的玩具,而不是任何视频工作流程中真正有用的工具。这些输出可以被编辑成更连贯的东西吗?也许可以。但根据视频的情况,这可能比一开始就拍摄素材需要更多的工作量。
这并不是对这项技术的轻视。Runway 所做的一切令人印象深刻,它有效地击败了科技巨头,取得了文字转视频的优势。我敢肯定,一些用户会发现 Gen-2 的用途不需要真实感,也不需要大量的可定制性。(Runway 首席执行官 Cristóbal Valenzuela 最近告诉彭博社,他认为 Gen-2 是为艺术家和设计师提供的一种工具,可以帮助他们的创作过程)。
我自己也进行了尝试。Gen-2 确实可以理解一系列的风格,如动漫和粘土动画,这些风格适合较低的帧率。只要稍加修改和编辑,把几个片段串起来创造一个叙事性的作品也不是不可能。
为了避免深层造假,Runway 表示它正在使用人工智能和人工审核的组合,防止用户产出包括色情或暴力内容或违反版权的视频。我可以确认 Gen-2 设有内容过滤器 – 事实上过滤的程度会有点过。这些并不是万无一失的方法,我们必须看看它们在实践中的效果如何。
但至少现在,电影制片人、动画师、CGI 艺术家和伦理学家可以放心了。在 Runway 的技术接近生成电影质感的视频之前,至少还要经过几次迭代 – 假设它能达到这个目标的话。