麻省理工科技评论:背靠大科技的开源 AI 能繁荣多久?是否该继续得到支持?
撰文:Will Douglas Heaven
来源:麻省理工科技评论
近日一份据称是由谷歌高级工程师 Luke Sernau 撰写的泄密备忘录,大声说出了硅谷许多人几周来的心声:一场开源的自由竞争正在威胁着科技巨头对人工智能的控制。
新的开源大型语言模型 – 谷歌的 Bard 或 OpenAI 的 ChatGPT 的替代品,允许研究人员和应用开发人员研究、建立和修改。这些模型是大公司创造的同类 AI 模型的更小、更便宜的版本,性能上(几乎)与它们相当,且是免费共享的。
像谷歌这样的公司 – 它在上周的年度产品展示会上透露,它正在将生成式人工智能应用于它所拥有的一切,从 Gmail 到照片到地图 – 都忙着自己的产品,没有看到真正的竞争到来,Sernau 写道:“当我们在一直争吵的时候,第三方一直在悄悄吃掉我们的午餐。”
在许多方面,这是件好事。更多接触这些模型的机会有助于推动创新,也可以帮助抓住缺陷。如果只有几家巨头公司为这项技术把关或决定它的使用方式,人工智能就不会茁壮成长。
但这种开源的繁荣是不稳定的。大多数开源版本仍然站在拥有雄厚财力的大公司所推出的巨型模型的肩膀上。如果 OpenAI 和 Meta 决定关闭商店,繁荣的小镇可能会变成落后之地。
例如,这些模型中有许多是建立在 LLaMA 之上的,LLaMA 是 Meta AI 发布的一个开源大型语言模型。其他模型则使用了一个名为 Pile 的大规模公共数据集,该数据集由开源非营利组织 EleutherAI 组建。EleutherAI 之所以存在,只是因为 OpenAI 的开放性意味着一群编码员能够逆向设计 GPT-3 的制作方法,然后在空闲时间创建他们自己的。
“Meta AI 在培训和向研究界发布模型方面做得非常好,”Stella Biderman 说,她是 EleutherAI 的执行董事和研究主管,也在咨询公司 Booz Allen Hamilton 工作。Sernau 在其谷歌备忘录中强调了 Meta AI 的关键作用。(谷歌向《麻省理工科技评论》证实,该备忘录是由其一名员工撰写的,但指出它不是一份官方战略文件)。
这一切都可能改变。由于担心竞争,OpenAI 已经在扭转其之前的开放政策。而 Meta 可能开始想遏制后起之秀用其开源代码做不良的事情。“说实话,我觉得现在这样做(向外界开放代码)是对的,”Meta AI 的总经理 Joelle Pineau 说,“但这也是我们未来五年要采取的策略吗?我不知道,因为人工智能的发展非常之快。”
如果关闭权限的趋势继续下去,那么不仅开源社区会被孤立,下一代人工智能的突破也将完全回到世界上最大、最富有的人工智能实验室手中。
如何制造和使用人工智能的未来正处在一个十字路口。
开源模型“富矿”
开源软件已经存在了几十年。它是互联网运行的基础。但建立强大模型的成本意味着开源人工智能直到大约一年前才开始腾飞。现在的它已迅速成为一种财富。
看看过去几周的情况就知道了。3 月 25 日,倡导免费开放人工智能的初创公司 Hugging Face 发布了 ChatGPT 的第一个开源替代品。
Hugging Face 的聊天机器人 HuggingChat 建立在开源的大型语言模型之上,该模型是在大约 13000 名志愿者的帮助下训练的,并在一个月前发布。而 Open Assistant 本身是建立在 Meta 的 LLaMA 之上的。
然后是 StableLM,由 Stability AI 于 3 月 19 日发布,该公司是热门文本到图像模型 Stable Diffusion 的背后公司。3 月 28 日,Stability AI 发布了 StableVicuna,这是 StableLM 的一个版本,与 Open Assistant 或 HuggingChat 一样,为对话而优化。(可以把 StableLM 看作是 Stability 对 GPT-4 的回应,StableVicuna 则是对 ChatGPT 的回应)。
这些新的开源模型加入了过去几个月发布的一系列其他模型,包括 Alpaca(来自斯坦福大学的一个团队)、Dolly(来自软件公司 Databricks)和 Cerebras-GPT(来自 AI 公司 Cerebras)。这些模型中的大多数都是建立在 LLaMA 或 EleutherAI 的数据集和模型上;Cerebras-GPT 遵循 DeepMind 设定的模板。而未来,相信会有更多的模型出现。
对于一些人来说,开源是一个原则问题。“这是一个全球社区的努力,将对话式人工智能的力量带给每个人……让它脱离少数大公司的掌控,”人工智能研究员和 YouTuber Yannic Kilcher 在介绍开放助理的视频中表示。
“我们永远不会放弃为开源人工智能而战,”Hugging Face 的联合创始人 Julien Chaumond 上个月在推特上如是说。
对其他人而言,这也是个利益问题。Stability AI 希望在聊天机器人方面重复它在图像方面的方法:为使用其产品的开发者的创新爆发提供动力,然后从中获益。该公司计划从这些创新中汲取精华,并将其带回为广泛的客户定制的产品中。“我们激发创新,然后进行挑选,”Stability AI 的首席执行官 Emad Mostaque 说。“这是世界上最好的商业模式。”
不管怎样,大量免费和开放的大型语言模型将这项技术推向了世界各地数百万人的手中,激励了许多人创造新的工具并探索它们的工作原理。Biderman 说:“使用这项技术的途径比以往任何时候都要多。”
“坦率地说,人们使用这项技术的方式之多令人难以置信,令人兴奋,”Fried Frank 律师事务所的律师 Amir Ghavi 表示。他代表了包括 Stability AI 在内的多家生成式人工智能公司。“我认为这证明了人类的创造力,而这正是开源的全部意义所在。”
融化 GPU
但是,从头开始训练大型语言模型 – 而不是建立或修改它们 – 是困难的。Mostaque 说:“这仍然超出了绝大多数公司的能力范围。”“我们在构建 StableLM 时熔掉了一堆 GPU。”
Stability AI 的第一个版本,即文本到图像模型 Stable Diffusion,与谷歌的 Imagen 和 OpenAI 的 DALL-E 等封闭式同类产品一样好,甚至更好。它不仅可以免费使用,而且还可以在一台好的家用电脑上运行。Stable Diffusion 比其他任何模式都更能激发去年围绕图像制作人工智能的开源开发的爆发。
不过,这一次,Mostaque 希望管理好预期:StableLM 与 GPT-4 相差甚远。“还有很多工作要做,”他说。“它不像 Stable Diffusion 那样,可以立即获得超级好用的东西。语言模型更难训练。”
另一个问题是,模型越大就越难训练。这不仅仅是由于计算能力的成本问题。训练过程中,更大的模型也更经常出现故障,需要重新启动,这使得这些模型的建立更加昂贵。
Biderman 说,在实践中,大多数团体能够负担得起的训练参数数量是有上限的。这是因为大型模型必须在多个不同的 GPU 上进行训练,而将所有这些硬件连在一起是很复杂的。她说:“在这种规模下成功地训练模型是高性能计算研究的一个非常新的领域。”
确切的数字随着技术的进步而变化,但现在 Biderman 认为这个上限大致在 60 亿到 100 亿个参数之间。(相比之下,GPT-3 有 1750 亿个参数;LLaMA 有 650 亿个。) 这不是一个确切的关联,但一般来说,更大的模型往往表现得更好。
Biderman 预计,围绕开源大型语言模型的大量活动将继续下去。但它将集中于扩展或调整一些现有的预训练模型,而不是推动基本技术的发展。她说:“只有少数几个组织对这些模型进行了预训练,我预计在不久的将来会保持这种状态。”
这就是为什么许多开源模型是建立在 LLaMA 之上的原因,LLaMA 是由 Meta AI 从头开始训练的,并由 EleutherAI 发布的,EleutherAI 是一个非营利组织,它对开源技术的贡献是独一无二的。Biderman 说,她知道只有一个类似的组织,而且是在中国。
EleutherAI 的起步得益于 OpenAI。倒退到 2020 年,这家位于旧金山的公司刚刚推出一个热门的新模型。“对于很多人来说,GPT-3 改变了他们对大规模人工智能的看法,”Biderman 说。“就人们对这些模型的期望而言,它常常被认为是一种智力范式的转变。”
由于对这项新技术的潜力感到兴奋,Biderman 和其他一些研究人员想玩玩这个模型,以更好地了解它的工作原理。他们决定对其进行复制。
那时 OpenAI 还没有发布 GPT-3,但它确实分享了足够多的关于它是如何构建的信息,让 Biderman 和她的同事们弄清楚它是怎么构建的。在 OpenAI 之外,从来没有人训练过这样的模型,但当时正值疫情,团队没有什么其他事情可做。Biderman 说:“当我参与其中时,我正在做我的工作并与我的妻子玩桌游。”“因此,每周拿出 10 或 20 个小时来做这件事是比较容易的。”
该团队的第一步是把一个巨大的新数据集放在一起,其中包含数十亿的文本段落,与 OpenAI 用来训练 GPT-3 的数据相媲美。EleutherAI 将其数据集称为 Pile,并在 2020 年底免费发布。
然后,EleutherAI 使用这个数据集来训练其第一个开源模型。EleutherAI 训练的最大模型花了三个半月,由一家云计算公司赞助。“如果我们自掏腰包,将花费我们大约 40 万美元,”她说。”这对一个大学研究小组来说要求太高了。”
援助之手
由于成本高昂,在现有模型的基础上进行构建要容易得多。Meta AI 的 LLaMA 已经迅速成为许多新的开源项目的首选起点。自从 Yann LeCun 在十年前成立以来,Meta AI 一直倾向于开源开发。这种心态是文化的一部分,Pineau 说:“这在很大程度上是一种自由市场,‘快速行动,建造东西’的方法。”
Pineau 清楚地知道其好处。她说:“这确实让有能力为开发这项技术做出贡献的人多样化。这意味着研究人员,企业家或民间组织等也可以看到这些模型。”
像更广泛的开源社区一样,Pineau 和她的同事们认为,透明度应该是一种规范。她说:“我敦促我的研究人员做的一件事是,在开始一个项目时,就考虑到你想要开源。因为当你这样做时,它在数据使用和如何建立模型方面设定了更高的标准。”
大型语言模型会散播错误信息、偏见和仇恨言论。它们可以用来大规模生产宣传或为恶意软件工厂提供动力。“你必须在透明度和安全性之间做出权衡,”Pineau 说。
对于 Meta AI 来说,这种权衡可能意味着一些模型根本不会被发布。例如,如果 Pineau 的团队在 Facebook 用户数据上训练了一个模型,那么它将留在内部,因为私人信息泄露的风险太大。或者,该团队可能会以点击许可的方式发布该模型,规定它只能用于研究目的。
这就是它为 LLaMA 采取的方法。但在其发布后的几天内,有人在互联网论坛 4 chan 上发布了完整的模型和运行说明。“我仍然认为对于这个特定的模型来说,这是正确的权衡,”Pineau 说。“但我对人们会这样做感到失望,因为这使得做这些发布更难。”
“我们一直得到来自公司领导层一直到马克 [扎克伯格] 对这种做法的大力支持,但这并不容易,”她说。
Meta AI 的风险很高。她说:“当你是一个非常小的创业公司时,做一些疯狂的事情的潜在责任要比你是一个非常大的公司时低得多。”“现在我们向成千上万的人发布这些模型,但如果它变得更有问题,或者我们觉得安全风险更大,我们将关闭这个圈子,我们将只向已知的学术伙伴发布,他们有非常强大的证书 – 根据保密协议或 NDA,防止他们用这个模型建立任何东西,甚至为了研究目的。”
如果发生这种情况,那么开源生态系统的许多宠儿可能会发现,他们在 Meta AI 接下来推出的任何产品上构建的许可都将被取消。如果没有 LLaMA,Alpaca、Open Assistant 或 Hugging Chat 等开源模型就不会那么好。下一代的开源创新者也不会像现在的这批人那样得到发展。
平衡
其他团队也在权衡开源自由竞争的风险和回报。
在 Meta AI 发布 LLaMA 的同时,Hugging Face 推出了一个门禁机制,人们在下载该公司平台上的许多模型之前,必须申请访问并得到批准……这个想法是为了只允许那些有正当理由的人接触这个模型——由 Hugging Face 决定。
“我不是一个开源的布道者,”Hugging Face 首席伦理科学家 Margaret Mitchell 说。“我确实明白为什么封闭很有意义。”
Mitchell 指出,未授权的色情制品是使强大的模型被广泛使用的一个弊端例子。她说,这是图像制作 AI 的主要用途之一。
Mitchell 曾在谷歌工作,并共同创建了其道德人工智能团队,她理解其中的紧张关系。她赞成她所说的“负责任的民主化”– 一种类似于 Meta AI 的方法,即根据模型造成伤害或被滥用的潜在风险,以有控制的方式发布。她说:“我真的很欣赏开源的理想,但我认为建立某种问责机制是有用的。”
此外,OpenAI 也在关闭水龙头。上个月,当它宣布 GPT-4– 该公司为 ChatGPT 提供动力的大型语言模型的新版本时,技术报告中有一个引人注目的句子:“鉴于像 GPT-4 这样的大规模模型的竞争格局和安全影响,本报告没有包含关于架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似的进一步细节。”
这些新限制的部分原因是,OpenAI 现在是一家以盈利为目的的公司,与谷歌等公司竞争。但它们也反映了一种心态的变化。联合创始人兼首席科学家 Ilya Sutskever 在接受 The Verge 采访时表示,该公司过去的开放性是一个错误。
OpenAI 的政策研究员 Sandhini Agarwal 说:“以前,如果某样东西是开源的,也许只有一小群程序员会关心。现在,整个环境已经改变。开源真的可以加速发展,并导致竞争。”
但它并不总是这样。如果 OpenAI 在三年前公布 GPT-3 的细节时有这种感觉,就不会有 EleutherAI。
今天,EleutherAI 在开源生态系统中发挥着举足轻重的作用。此后,它建立了几个大型语言模型,Pile 被用来训练许多开源项目,包括 Stability AI 的 StableLM(Mostaque 是 EleutherAI 的董事会成员)。
如果 OpenAI 分享的信息较少,这一切都不可能发生。像 Meta AI 一样,EleutherAI 实现了大量的开源创新。
但随着 GPT-4 甚至 5、6 的封锁,开源社区可能会再次被留在几家大公司的后面进行修补。他们可能会发布狂野的新版本 – 甚至可能威胁到谷歌的一些产品。但是,他们将被困在上一代的模式中。真正的进步,接下来的飞跃,将在闭门造车中发生。
这重要吗?人们如何看待大型科技公司关闭权限的影响,以及这将对开源产生的影响,在很大程度上取决于你对人工智能应该如何制造以及应该由谁制造的看法。
“人工智能很可能成为未来几十年社会组织方式的驱动力,”Ghavi 说。“我认为,建立一个更广泛的监督和透明体系,比把权力集中在少数人手中要好。”
Biderman 对此表示赞同:“我绝对不认为每个人都做开源有某种道德上的必要性,”“但说到底,让人们开发和研究这项技术是非常重要的,而不是为其商业成功进行经济投资。”
然而,她很清楚其中的利害关系。她说:“实际上,我对 OpenAI 的批评比很多人认为的要少得多,”她说。“公开发布这项技术有真正的风险,真正的潜在危险。”
OpenAI 声称它只是在谨慎行事。OpenAI 信任与安全团队负责人 Dave Willner 表示:“我们并不是认为透明度不好。”“更重要的是,我们正在努力弄清楚如何协调透明度和安全性。随着这些技术变得越来越强大,在实践中,这些东西之间存在一定程度的紧张关系。”
“人工智能的很多规范和思维都是由学术研究团体形成的,它们重视合作和透明度,这样人们就可以在彼此的工作基础上发展,”Willner 说。“也许随着这项技术的发展,这种情况需要有所改变。”