Midjourney CEO大卫·霍尔兹:AI应该是我们自身的延伸
腾讯科技讯7月7日,MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言,认为AI将成为创造和想象力的新的载体和引擎 。通过AI,我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney,霍尔兹表明它来自于道教著作《庄周》中的中道概念,他认为中国古典文学带来了很多最美丽的,最深沉的思想。
目前Midjouney正在进行5.3版本的开发,并会在版本6中提供一系列对生成图像进行缩放,平移来自动生成新的不同角度相关图像的能力,并且可以控制生成图像的随机性,让作者在诡异的美和令人迷惑的画面间找到平衡。在未来,Midjourney的目标是发展出三维,实时,动态可调的生成图像。
关于技术的未来,他并不确定可能的走向。但融合模型(图像 /文字用的模型进行融合)可能是比较可能的发展方向。他认为AI的这次技术进步的潜力还没有完全发挥出来,比现在强上十倍,百倍的进步是必然的。
他认为到目前为止技术上的大部分进步都来自于试图让人变得更好,试图放大人的能力。因此AGI也许并非是必要的,AI作为我们人的延伸,赋能人类才是更好的选择。
以下为演讲实录:
大家好,我是大卫·霍尔兹,Midjourney的CEO和创始人. 我很荣幸受上海市政府邀请我参加这次人工智能世界大会,并很期待加入今天的活动。
世界上最重要的技术之一就是引擎。引擎是一种用于产生、转移或放大的机器。我们使用引擎在各种工厂建造各种各样的交通工具,如汽车、飞机和船只。而现在,是时侯把人工智能看作一种新型引擎了。
在 MidJourney,我们正试图用这种引擎来打造一种新型的载体,这载体不是交通工具,而是承载我们的思维和想象力的载体。
就像你可以用足球转动世界,但仍需要腿去踢球一样。我们希望能创造一种新型的载体,你可以用它来进行想象,而不仅是产生运动。在我们创造之前,我们必须首先去想象,想象我们能成为什么,我们可以去哪里,什么是可能的。我认为我们制造的工具,比任何东西都更专注于放大想象力的原初力量。我们有机会放大的不仅仅是任何个体,而是整个人类种族的想象力。我曾多次随Leap Motion(手势识别设备)访问过中国,Leap Motion的第一个办公室就在上海。上海有一种特殊的感觉,我非常喜欢,它似乎是旧金山、洛杉矶、纽约以及一些欧洲老城市的组合体。它拥有一种古老历史和文化的力量,同时也有一种未经雕琢的未来感。这真的很酷,这是我最喜欢的两件事。
事实上,我基本上是个科幻小说的狂热读者,而我看到的最疯狂的设定来自于中国古典文学。我认为古代中国文学拥有人类历史上最美丽、最深沉的思想。MidJourney(中道)这个名字实际上源于我最喜欢的一个古老道家文本的翻译,它出自《庄周》。比如《庄周梦蝶》、《子非鱼》、《庖丁解牛》、《不材之木》、《空舟》,我喜欢这些。我喜欢MidJourney这个名字的原因是,我觉得人们有时容易忘记过去,可能会感到迷茫,对未来感到不确定。但我更多的是觉得我们其实是在中途旅程,我们来自丰饶美丽的过去,前方是荒野而不可思议的未来。
我们最近发布了Mid Journey 5.2版本,现在正进行着5.3版本的开发。 之后我希望能发布一个重大更新版本,我希望称之为版本6。我们引入的最新特性是关于图像的缩放,并在你缩小的同时,可以创造不同的故事和环境,围绕中心主题进行变化。这周我们将发布一个类似的功能,它允许你移动相机,然后当你横向移动相机时,可以不断改变提示,然后讲述故事,我们还发布了这个奇特的控制系统,可以结合这些新功能来更好地控制图像生成。
你也可以将其与风格控制相结合。“风格控制”略有点混淆,但是这个想法是,你想要告诉AI想生成多美的产物,你要承担多大的风险来制造这种美。哪怕它是非常规的,混乱的,奇特的,但有时结果真的非常出色。
有时你需要勇于冒险,这让人们可以控制风险性和美的随机性之间的平衡,或者是平衡对图像的常规普遍美予以多少关注。我们还引入了一种我们称之为涡轮模式的东西。涡轮模式就是我们尽可能多地使用GPU,使图像产生非常快。这让生成的速度提升了4到5倍。这个模式让你好像在用64个或100个以上的GPU去生成图像。能达到这个算力,你的计算机大概得值50万美元。这听起来多少有点疯狂,而我们还在研发更疯狂的技术。虽然它们大部分还在酝酿之中,但我们认为随着时间的推移,Midjourney将发展为不仅能创造二维图像,而且能创造三维图像,动态图像,你甚至可以与像素本身交互。在将来也许你能实时回流和重塑的你画出来的东西。
人们只需要这样一个庞大的AI处理器,然后它就可以梦想所有的不同世界,而且梦想可以与我们的思维互动。而我们从某种意义上是通过它(AI)在做梦,那将是真正酷的事。Diffusion模型、Transformer模型、Clip模型的依次发现,实际上让AI开始进入图像空间。大约在2年前,任何图像AI服务都还没有出来时,我们所有的研究者在旧金山交流,我记得我当时说这些模型,特别是Diffusion模型的横空出世肯定会带来完全不同的东西。还有生成对抗网络技术,这是大家在之前用来制作图像生成的基本技术。
我只记得每个人都以一种不寻常的方式立刻点头,说Diffusion模型真的不一样。那一时间气氛非常严肃,我有了一种必须参与其中,并给这个技术带来更人性化的用户界面的强烈感觉。
但是关于未来,我们很难确知技术会如何发展。有时我们会谈论现在如何将语言模型转向Diffusion模型,也即使用Diffusion模型来制作文本。或者说图像模型会变得更像语言模型。这到底怎么达成呢?这种方式的技术术语是自回归Transformer,或者说AI会向着混合模型发展。但这真的很难说。我认为我们只是在这场变革的开端,但我百分之百确定还有很多进步要去取得。比现在十倍,一百倍的进步很可能是必然的。
这种进步不仅体现在性能上,而且体现在让我们更好使用这些技术的用户界面和产品上。无论是个体还是集体都可以制造出真正酷的东西,可以更好地解决问题。道格拉斯·恩格尔巴特是第一个创建文本编辑器的人。最初,人们是通过打孔卡或卡片上的打孔来编程计算机。但道格拉斯开始思考,如果我们用计算机编程计算机会怎样,这在那时候听起来很疯狂。他的想法是,通过在计算机上编程计算机可以加速这个循环,使我们做的更好,使计算机更强大,放大一切。这种想法最终实现了。尽管我们有这些不同的文化,比如AI,人机界面,智能应用文化,我认为到目前为止技术上的大部分进步都来自于试图让人变得更好,试图放大人的能力。
我们还没有真正看到AI时代降临,在那时我们会有独立的AI去解决问题。但如果我们过多地考虑朝着那个方向发展,可能会错失技术中现存的很多机会。我不仅思考AI能做什么,而且思考如何在不同的事物之间创造流动性和纠缠。因为工具不应该感觉像一个人,它应该感觉像你自己,你的身体,你的思想的延伸。我在想如何构建这些技术,让人和AI相互交织起来,感觉不像是你正在与艺术家合作,而更像是你在想象一些东西,然后它就出现在屏幕上。很多人在描述我的旅程时,都觉得那些目的地就像是他们思想的一部分。我认为这就是大部分AI应该成为的样子,它应该是我们自身的延伸。
所以我想再次向陈先生和全体观众表示感谢。WAIC非常酷,我希望我能在将来亲自参加,成为这个活动的一部分。我很期待与中国有更多的合作,我记得我在那里的所有美好的亲身经历,希望大家在那里也能享受互动的乐趣。谢谢。