开卷!Anthropic Claude 模型升级到 10 万 token,可将《了不起的盖茨比》整本吞下
撰文:Kyle Wiggers
来源:TechCrunch
图片来源:由无界 AI工具生成
从历史上看,甚至在今天,记忆力差一直是阻碍文本生成式人工智能发挥作用的一个因素。正如《大西洋》杂志最近发表的一篇文章所说,即使是像 ChatGPT 这样复杂的生成式文本人工智能,其记忆力也像金鱼一样。每次模型生成响应时,它只考虑到非常有限的文本量,因此它也无法总结一本书或审查一个主要的编码项目。
但 Anthropic 正试图改变这种状况。
今天,这家人工智能研究初创公司宣布,它已将 Claude(其旗舰文本生成人工智能模型,仍处于预览阶段)的上下文窗口从 9000 个 token 扩展到了 10 万个 token。上下文窗口(Context Windows)指的是模型在生成额外文本之前考虑的文本,而 token 代表原始文本(例如,“fantastic”一词将被分割成 token “fan”、“tas” 和 “tic”)。
那么,这意味着什么呢?正如前面所提到的,具有小上下文窗口的模型往往会“忘记”即使是最近的对话内容 – 导致它们偏离主题。在几千字左右之后,小模型也会忘记最初的指示,只根据上下文窗口中的最后的信息来进行响应。
鉴于大上下文窗口的好处,找出扩展的方法已成为 OpenAI 等 AI 实验室的主要关注点,要知道,OpenAI 将整个团队都投入到了这个问题上了。OpenAI 的 GPT-4 在上下文窗口的大小方面保持着之前的领先地位,其规模最高可达 32,000 个 token,而改进后的 Claude API 已然超越了这一数字。
有了更强的“记忆力”,Claude 应该能够相对连贯地交谈几个小时——甚至几天——而不是几分钟。也许更重要的是,它应该也不太可能偏离轨道。
在博文中,Anthropic 对 Claude 增加上下文窗口的其他好处进行了介绍,包括该模型消化和分析数百页材料的能力。Anthropic 称,除了阅读长文本,升级后的 Claude 可以帮助从多个文件甚至一整本书中检索信息,回答哪些需要跨文本的“综合知识”问题。
Anthropic 列出了一些可能的用例:
- 对财务报表或研究报告等文件进行消化、总结和解释
- 根据公司的年度报告,分析其风险和机会
- 评估一项立法的优点和缺点
- 识别风险、主题和跨法律文件的不同论证形式。
- 阅读数百页的开发者文档,呈现技术问题的答案
- 通过将整个代码库放入上下文中并智能地构建或修改它来快速制作原型
“普通人可以在 5 个小时左右阅读 10 万个 token 的文本,然后可能需要大量的时间来消化、记忆和分析这些信息,”Anthropic 继续说道。“Claude 现在可以在不到一分钟的时间内做到这一点。例如,我们把《了不起的盖茨比》的全部内容输入进了 Claude…… 并修改了其中一行,说 Mr. Carraway 是‘一个在 Anthropic 从事机器学习工具的软件工程师’。当我们要求 Claude 发现有什么不同时,它在 22 秒内就给出了正确答案。”
此外,Anthropic 的合作伙伴 AssemblyAI 也进行了相关测试。在视频演示中,该团队用 Claude-100 k 将一个长播客转录成 58K 单词,然后使用 Claude 进行总结和问答。该团队给出的评价是:insane!太疯狂了!
目前,更长的上下文窗口并不能解决围绕大型语言模型的其他与记忆有关的挑战。Claude,像其同类的大多数模型一样,无法将信息从一个会话保留到下一个会话。而且与人脑不同的是,它把每一条信息都视为同等重要,这使得它并不能成为一个特别可靠的叙述者。一些专家认为,解决这些问题将需要全新的模型架构。
不过,就目前而言,Anthropic 似乎走在了前列。