ChatGPT后下一个热点:能为你「做」一切的 AI ,才是真助手
作者:Sia
图片来源:由无界 AI生成
在推出了一款 AI 写作助手之后,人工智能初创公司 HyperWriteAI 又走在了前面——最近,他们推出了一款可以像人类助手一样办事的数字助理 Personal Assistant 。
一经推出,口碑不俗。
生成式 AI 初创企业 Cohere 联合创始人兼 CEO AidanGomez 赞赏其为「……第一次看到真正的『个人智能体』。」
网友反响也不错,声称这项工作让人震撼,浏览网页操作自动化将迎来变革。
要说个人助理,市面竞品其实不少,Personal Assistant 究竟有何独特魅力?与众不同?
公司宣称,Personal Assistant 是第一个可以与浏览器交互操作的 AI 智能体(AI Agent)。
如果你觉得这个回答有点抽象,我们帮你问了 Personal Assistant,让它解释一下自己「与其他 LLM 驱动的虚拟助手最大区别是什么?」
「我可以与网页浏览器交互。」它说。
其他助手基于海量的知识来生成文本和答案,而我擅长的是搜索信息、导航到某个网站、填写表格以及与网页上的各种 ARIA 元素交互。
Personal Assistant 回答自己与其他大模型驱动的助理的最大区别。
那么,什么是智能体(Agent)?
在大模型语境下,可以理解成能自主理解、规划、执行复杂任务的系统。
AI 智能体( AI Agent)并非 ChatGPT 升级版,它不仅告诉你答案,更重要的是它会帮你去做 (do it),等于给双手雇了一个「跑腿」的(ChatGPT 不擅长)。
给你的浏览器安装 Personal Assistant 这个插件后,AI 就可以帮你完成人类在网上所做的事情,无论是在上面做研究、买东西、订购服务还是浏览新闻、收集信息,等等。
你要做啥,就告诉 Personal Assistant,然后做你的甩手掌柜,它会为你自动完成任务。
接下来,我们感受一下它的神奇能力。
如果需要出行,想预订行程,告诉 Personal Assistant 出发地与目的地以及具体时间,Personal Assistant 会进入浏览器页面主动搜索符合要求的出行方案。
DEMO演示
接下来,Personal Assistant 会挑选出几个较为合适的方案供你选择。选择后,你的行程就将预订成功。
Personal Assistant 还能为你搜索和总结信息。
「Find the Techcrunch article about the HyperWrite AI Agent and summarize the information。」我们给了它一个命令。
接着,系统打开谷歌浏览页,在搜索框里自动输入相关要求,等待一段时间后,相关网页一一呈现出来,一共两页。
不过,Personal Assistant 发现 HyperwriteAI 的产品根本未被 Techcrunch 报道过,所以找到另一家科技媒体的报道文章并给出内容总结。
接下来,我们尝试了 Personal Assistant 的写邮件能力。
我们告诉它,「Navigate to Gmail and send a creative one line email to xxx thanking her for pretty gift for my birthday。」
系统随后导航到 Gmail 页面,获得邮件服务授权后进入邮箱,自动填充收信人并根据你的提示撰写邮件内容。
我们也可以手动这一过程,例如在通信录里选择收信人地址、让系统根据你设定的主题生成邮件内容。
推特网友还使唤 Personal Assistant 买窗帘……
更夸张的例子是 Personal Assistant 可以自主操作 ChatGPT,从单个提示开始构建网站。
你可以使唤 Personal Assistant 做很多事情,包括订披萨、在 Linkedln 选找合适的工程人选等。
每一个应用的运作程序也都差不多。
通过搜索引擎找到相应页面,浏览网站,与网站互动并完成基本的在线任务。AI 能自行查找需要填写的内容,比如出发地、目的地、收获地址、填写邮编、付钱完成订单。
让我们印象深刻的是,每进入一个环节、步骤,Personal Assistant 都会向我们做出解释,这也是思维过程的提示,我们也可以对每个步骤点赞或者批评,帮助 LLM 推理问题,提高性能。
遗憾的是,虽然官方给出的早期测试案例中,Personal Assistant 可以帮助完成发推特的活儿,但我们没有成功,系统始终无法进入推特或者微博页面进行进一步操作。
另外,尽管是在电脑上操作,我们仍然明显感到每个环节的响应速度都比较慢。
这还不是最终产品。HyperWriteAI 联合创始人、CEO Matt Shumer表示,之所以让大家先睹为快,目的在于让更多人了解这类个人助理将成为每个用户浏览体验不可或缺的一部分。
就像 OpenAI 联合创始人,特斯拉前人工智能总监Andrej Karpathy 曾经预测的,「AI Agent 代表着一个疯狂的未来。」
而就在前不久,思必驰联合创始人、首席科学家俞凯在接受我们的专访时也谈到了这一趋势。
俞凯认为,大模型的使用范式会经历三个阶段。
最开始是多模态专用大模型,它有可能是语言或者图像的,但都旨在解决专用任务,虽然也会彼此组合,但各个通道之间基本上彼此独立,不能两两交叉。这种使用方式早就存在。
第二阶段会实现不同模态大模型之间的跨模态应用,比如通过语言对话修改化学分子的设计,或者将大模型创作的故事通过合成声音甚至数字人讲述出来。
第三个阶段涉及智能体系统。大模型自身具备通识,同时还会具备调用其他大模型的能力,调用方式可能是对话,另一个大模型也有回复的方式。「未来一定是以这种方式组合智能体。」他认为。
GPT-4 驱动的 Auto-GPT 已初见端倪。它不再是 ChatGPT ,因为它可以把 stable diffusion 这个文生图大模型和语言大模型结合起来,通过十分精巧的 prompt,生出很好的图片。
「它(Auto-GPT)由单个通用人工智能大模型,变成了一个可以指挥很多其他模型的智能体。」俞凯表示,你可以认为它就是一个比较完整的模型智能体,可以通过大模型去调用各种工具,包括其他大模型。
Meta 也看到了 AI Agents 的机会。
6月,扎克伯格在一次员工全体会议上宣布了一系列处于不同开发阶段的技术,其中一个就是将带来不同个性和能力的 AI Agents,最初主要用于 Messenger 和 WhatsApp。
据 Matt Shumer介绍,目前 Personal Assistant 的底座是基于自主研发的模型与来自 Cohere 等投资者的开源和未开源大语言模型的组合。
HyperWrite 也正在开发自己的大语言模型「Agent-1」,计划在未来一个月内用它来驱动 AI 智能体(AI Agent )。
Shumer 认为,类似 Cohere 、GPT-4 通用 LLM 的问题在于其设计初衷都是为了完成各种任务,从写诗到解数学题,并不胜任处理操作软件,所以训练进展缓慢,成本也高。
如果说,通用大模型存储了大量的知识,为推理留下较少的参数,那么,「Agent-1 」侧重于浏览网页,目标是将模型的所有动力都用于动态推理,使他们的模型能够处理它从未训练过的情况,因此与其他 LLM 相比要简单得多,速度也更快且成本低、更可靠。
「Agent-1 」不依赖于对特定站点的知识,而是自己想办法使用它。建立在这个模型基础上的软件也会不断学习,而不会浪费模型参数。随着模型不断快速改进,它在更复杂软件操作上的可靠性也会提高。
「我们的目标是超越人类的能力——一个可以操作任何软件并代表用户可靠地完成复杂目标的助手。」Matt Shumer 表示。
这里是 Personal Assistant 试用地址:
https://www.hyperwriteai.com/personal-assistant