对话丨周伯文:通用大模型如何突破垂直行业场景?
作者:王永昂 编辑:董子博
来源: AI科技评论
图片来源:由无界 AI工具生成
从京东离开后,周伯文已经很久没有这么兴奋了。
ChatGPT横空出世搅动乾坤,如同一声春雷惊醒各行各业的从业者,让他们都不约而同地听到,AGI走进现实的脚步声。
热潮之下,人们看到王慧文、王小川下场创业,也看到百度、阿里虎踞龙盘。周伯文作为IBM、京东两家大厂的AI研究院前院长,研究人工智能基础理论与核心前沿技术、应用及产业化超过25年,早在2021年底就已创办衔远科技,通过自研大模型,凭借生成式AI、多轮对话与人机协同技术,帮助企业与消费者完成人工智能新时代的产品创新和数智化转型。“与其说是我自己决定在这一领域创业,不如说是这个事业找到了我”,周伯文形容这是必须要做的事,就像有一种使命感在催促他去行动。
周伯文毕业于中科大,后赴美科罗拉多大学波尔德分校取得博士学位。作为原IBM Research美国总部人工智能基础研究院院长,在主持AI相关工作多年后回国,先后担任京东集团高级副总裁、集团技术委员会主席、京东云与AI总裁、京东人工智能研究院创始院长等职位。作为京东AI的缔造者,负责京东AI的技术研究与业务拓展,从0创建京东AI事业部、AI研究院、京东AI加速器,打造智能供应链人工智能国家级开放平台,实现每天调用量从0到百亿,主导了京东人工智能客服的技术重构并启动对外产品化,管理着数十亿规模的技术服务业务及数千人规模的技术、产品、市场与销售一体化团队。
2021年,周伯文预判到生成式AI将在不远的未来爆发,决定离开京东创办衔远科技,致力于以通用大模型能力帮助垂直领域企业开展产品创新与数智化转型,以AI重塑商品价值;2022年,出任清华大学惠妍讲席教授、电子工程系长聘教授,并于同年5月创立清华大学协同交互智能研究中心,其研究方向与GPT采用prompt驱动生成式AI的方式不谋而合。
ChatGPT山雨欲来,周伯文也在朋友圈发文:“我相信,中国的OpenAI需要探索一条新的道路!”豪情之下,求贤若渴。但与其他创业者不同,周伯文和衔远科技选择依托数百亿级参数规模与独特的训练方法,让大模型在具备通用能力的基础上,更擅长理解人与商品的关系,以生成式人工智能技术帮助企业重构从商品洞察、定位、设计、研发到营销的全链路创新体系。
周伯文曾在公开场合表示,他的创业方向是率先将人工智能与传统产业进行融合,为企业数智化创新带来更高价值,即实现通用大模型在垂直场景的能力突破。
近日,AI科技评论记者与周伯文进行了一次对谈,以下是谈话实录,AI科技评论对内容做了不改变其原意的编辑整理:
让AI学习人类的智慧,新的交互与协同范式
AI科技评论:ChatGPT带来了prompt这种交互方式,您认为相对过往的交互方式有何不同?
周伯文: 我的研究方向之一就是AI和人的交互,并在交互中进行学习。人机交互和人机对话是不一样的,通过人机交互AI能够在过程中能学到东西,所以这不是一个简单执行的任务,而是一种实现学习的手段。
像《论语》中所记载的,就是孔子和他七十二个弟子在交互中学习的故事。在西方,类似的有柏拉图和亚里士多德的雅典学院,这些最古老的知识与智慧的传承都是通过人与人的对话完成的,老师通过与学生的交互帮助其更好地完成学习。
举例来说,如果老师让学生去倒杯一水,这类简单的“命令-执行”动作很难增长什么智慧;但如果换做老师教学生如何写论文,并告知其在写作过程中遇到困难该怎样克服,这就是可以增长智慧的交互,也体现了我对人与AI协同交互的核心观点。
AI的本质就是与人类的协同和交互,它从交互中不断学习,进而协同人类更好的解决问题。这个观点在不远的未来将愈发重要,同时也将面对技术和伦理层面的更多挑战,最终想要守住底线并不容易。像大家说的AI Alignment(AI对齐),人类能够把意志传递给AI,然后跟AI一起分解任务,让AI在过程中学习并实现人类的意志。这是一种新的协同方式,即协同交互智能。
AI科技评论:您认为通过交互达到价值对齐是人类大脑和GPT协同的有效方式吗?人类与AI应该如何更好地协同?
周伯文: 在生成式AI大爆发之后,通过与人协同交互进行学习的AI会越来越强。
2002年诺贝尔经济学奖得主丹尼尔·卡尼曼在畅销书《思考,快与慢》(Thinking Fast And Slow)中提出人的思考有两种模式——系统1和系统2,系统1是快思考、直觉判断;系统2是慢思考,要做大量的推理和计算。
最初,人们认为AI更适合做“系统1”的工作,比如人脸识别、质检就是基于“系统1”的模式识别。但我坚持认为,AI的真正价值在于System 2,即帮助人类更好地完成复杂的逻辑推理任务。ChatGPT的出现验证了AI做系统2的可行性,这意味着可以让AI去发现新知识,新知识的发现会帮助人类设计出更好的AI ,比如对脑科学和计算优化的发现,一个创造新知识的飞轮就出现了。飞轮效应正是指AI可以让整个系统更好地发现新知识,这些新知识又可以帮助设计更好的AI系统,从而形成一个良性循环。因此,AI与知识和创新之间形成了一种相互促进的关系,这就要求AI和人类的协同方式必须转变。
我之前提出过一个“3+1”的研究方向,即以可信赖AI为研究基底和长期目标,以多模态表征交互、人机协同演绎、环境协同演化为研究着力点,核心是要做人机的协同共创,实现人类帮助AI创新、AI帮助人类创新的目标。
其中之一是多模态表征交互 ,这里可能存在着一个大一统理论。在2022年时,人们对此仍持怀疑态度,但随着GPT-4的问世,这种多模态的统一表征交互已经比较具有说服力了;另一点是人机协同交互 。这在2022年时人们也抱持怀疑的态度,但现在这种交互方式已经变得更加可信,人们开始相信它很可能会发生;第三点是AI与环境的协同演化 ,这意味着AI不仅需要与人类协同,还必须自适应周围的环境。我们在2022年年初率先提出了这一概念,直到目前还没有看到在这个方向上取得成功的案例,即便是OpenAI也没有。
学不来OpenAI,干不过微软,国内大模型创业要做减法
AI科技评论:Transformer 模型的特别之处在于采用了注意力机制(Attention) 来建模文本,我们注意到您很早就开展了与AI注意力机制相关的研究。
周伯文: Transformer的核心亮点,是自注意力机制和多头机制。2017 年6月,Google Brain发表的 “Attention is All You Need” 中引入了自注意力(self-attention)机制和Transformer的概念。后来OpenAI的GPT也受这篇论文影响颇深。
在此之前,我作为通讯作者发表过第一篇引入多跳自注意力(multi-hop self-attention)机制来改善编码器的论文——“A Structured Self-Attentive Sentence Embedding”。这篇论文于2016年完成并上传到arXiv,2017年初在ICLR正式发表,我们也是首个提出这一机制的团队,更关键的这是第一个完全不考虑下游任务的自然语言表征模式。以前大家也使用过注意力或某种情况下的自注意力,但都是依赖任务的。
AI科技评论:在这篇论文中,您有怎样的发现?这些发现又是怎样影响了后来Transformer的技术更迭?
周伯文: 我们当时在论文中提出,最好的表征方式是用结构化的自注意力去表征自然语言(NLP),这篇论文发表至今已被引用超过2300次。
在此之前,OpenAI首席科学家Ilya Sutskever 认为最好的表征方式是“序列到序列(Seq2Seq)”,即训练模型从而把一个域的序列转化为另一个域的序列,比如机器翻译中的对应源语言与目标语言;又或是在问题回答中,问题是一个序列,回答是一个序列。在此基础上,对深层神经网络表征的两者映射关系进行学习。
但后来,深度学习专家、图灵奖得主Yoshua Bengio团队提出了一个“注意力机制”,其核心是在回答问题时,并非所有词都同等重要;如果能根据问题与答案之间的对应关系识别出更关键的部分,继而更加关注这部分,就能给出更好的答案。这种注意力模型很快就得到了非常广泛的认可。2015年,我带领IBM的团队也在同期开始了基于“Seq2Seq+注意力机制”架构和思路的研究,并先后推出了几个最早期的AI用自然语言写作的生成模型,相关论文也被引用超过3000次。
但我当时对论文内容其实并不满意,因为它存在一个问题,即注意力是基于给出答案后去构建的。这样训练的AI,形象地比方,就像大学期末考试前问老师划重点的学生,再去有针对性(attention)的重点复习。这样AI虽然对特定问题的表现能有所提高,却并不具备通用性。所以我们提出了完全不依赖于给定的任务和输出,只基于输入自然语言的内在结构,通过AI多遍阅读去学会哪些部分更重要及其相互之间的关系,这就是自注意力加上多头机制的表征学习。这种学习机制只看输入,更像学生在考前就多遍、系统性地学习理解课程,而不是基于考试重点去针对性、碎片性地学习,从而更逼近通用人工智能的目的,也大大增强了AI的学习能力。
AI科技评论:“Attention is All You Need”那篇论文和您有怎样的渊源?
周伯文: 我们知道,所有这一波大模型都来自于Transformer ,所以当你看到模型里面有个T时,那这个T大概率是代表Transformer。我很荣幸,在这方面做了一些前瞻性的工作 。2017年年底,来自谷歌的研究员发表“Attention is All you need”这篇给世界带来Transformer模型的里程碑式论文。而我们在2017 年年初发表的首次提出“多跳自注意力机制”的论文“A Structured Self-attentive Sentence Embedding”被引用。而这篇论文的第一作者Ashish Vaswani正是我在IBM指导过的学生。“Attention is All You Need”这篇论文的标题所表达的也正是由我们提出的 “自注意力很重要,多头很重要,但RNN或许没有我们以前想象中那么重要”的意思。
AI科技评论:您和OpenAI有哪些一致的技术判断?
周伯文:这篇论文和Transformer架构彻底改变了一切,它解决了模型长距离记忆的问题。Ilya Sutskever在近期一次采访中回忆,OpenAI在这篇论文出现第二天就立刻彻底转向了Transformer架构。
我们知道,GPT与Bert的模型有着很大的不同,而Bert为什么开始很成功,后面却不如GPT的原因就在于:它既使用了从左到右的信息,也使用了从右到左的信息。换句话说,Bert使用了未来的信息去帮助AI学习如何表征,而GPT坚持只基于过去的信息去预测下一个词是什么。OpenAI在这点上的做法与我们团队的思路一脉相承,即:尽量不要使用答案去学习。 从注意力到自注意力,从BERT到GPT-3,核心思想都是当不再依赖输出或待预测词的下文等未来的信息时,又或当可以用更多的数据来更充分的训练AI模型时,我们开始看到AGI出现的可能性。
还有就是,OpenAI 认为大模型是通过自然语言去学习世界知识,从而把世界知识压缩到大模型之中,GPT系列大模型和ChatGPT也是按照这个理念去推进的。我和团队的理念和愿景也是如此,即构建一个通用大模型,通过专业的训练让其在垂直领域发挥更高的价值和能力,将消费者的复杂情感、需求和体验,以及商品的创新、设计、品参、材质、功能等等,压缩进一个大模型,重构人与商品的二元关系,以AI重塑商品价值。
AI科技评论:除了技术实力,OpenAI还有哪些地方,让您觉得有可取之处?
周伯文: 不止在技术判断上,OpenAI的整个商业打法都具有代表性,包括:生态的建立,宣布新摩尔定律,让 API 降价90%等等,既引发广泛的关注,又能扩展资本和用户对大模型商业化应用的想象空间,并衍生出几近无限的应用场景。此外,OpenAI在伦理治理、商业开发、生态技术、未来发展等方面的规划也十分清晰。
AI科技评论:中国会出现下一个OpenAI吗?
周伯文: 做大模型的技术难度其实是超出很多中国创业者想象的。所以我并不建议国内公司盲目跟随、复制“OpenAI+微软”的模式,因为大部分中国科技公司对经营的决策能力不如微软,对技术的判断能力又不如OpenAI。
OpenAI的成功是多方面因素共同成就的,比方有Ilya Sutskever做技术判断,有Greg Brockman做功能,有Sam Altman来整合资源,包括AI对伦理、对社会影响的研究,他们都做了。如果国内公司纯粹去模仿OpenAI的话,彼此的距离只会越追越远。
以数据的纬度能够看出OpenAI的技术判断力,因为世界上不是所有的数据都一样重要。为什么 OpenAI 选择用 Github 的程序语言去训练思维链?因为程序语言的语义、语法极其简单,执行过程的逻辑严谨。这也代表了OpenAI的一个特质和优势:不会盲目出击。所以我认为,中国的AI发展要找到另一条路径,即依托通用大模型的能力从针对垂直场景的应用切入,这样反而更有可能取得成功。
生成式AI将会颠覆现有的消费体验
AI科技评论:您为什么瞄准消费领域?
周伯文: 我在京东时,看到了以“人工智能做消费者需求和产品设计动态匹配”的巨大商机。2021年,我决定离职创业,去做针对垂直行业的通用大语言模型(大语言模型当时还没有爆发),就是希望将消费者所有的行为从非特定场景中cover进来。我们知道,周一到周五的时空场景是不一样的,白领或其他职业的关注点也是不一样的,在这些影响购物行为的文化符号背后,是消费者复杂的情感、体验以及对产品的选择逻辑,这正是企业需要的宝贵信息。供给侧在做产品时,包括创意、设计、品参、功能、材质以及品牌的定位、slogan、marketing、广告、营销、宣传图片等等,所有这一切因素的背后其实都有着很强的对应关系。
这种对应关系,此前人类从来没有打通过。做企划、营销、销售的从业者,都只搞明白了他们各自负责的环节。而我们是要做全球首个商品供应链的通用大模型,也就是要将所有这些信息全部高保真压缩到一个通用模型中,并基于这个大模型赋能企业产品的全生命周期, 包括:机会洞察(Discover)、产品定义(Define)、方案设计(Design)、驱动研发(Develop)、营销转化(Distribute)。如此一来,企业能够更高效地发现创新机会,更具创意地设计和生产,更有效果地进行营销推广、触达用户并完成转化。
AI科技评论:商业模式上,这样似乎要更加先进一些。
周伯文: 对于任何一个创业团队而言,在具备大模型的通用技术能力后,能否培养出更专业的能力十分重要。目前GPT的突破主要在其通用能力上,但对于特定行业和垂直领域的价值还有待开发,比如:GPT可以画很逼真的艺术画,但是画不了电路图,因为它对物理知识的专门学习并不深入,相关判断上也不够专业。
所以,我认为需要有这样一个工具(具备专业能力的通用大模型),让消费者更容易找到、也更愿意去购买所需的商品,这可能会完全改变人们现有的购物路径。生成式AI能够将海量的商业信息压缩到这类大模型之中,从而学习商品供应链各个环节,并以消费者为中心提升关键环节效率。这是在2021年就已经产生的想法和创意。
衔远科技就是在研发一个具备通用能力的大模型,这个大模型尤其在链接商品和消费者方面具备专长。 我们有37项大模型评测指标,其中2/3是推理能力、计算能力等通用能力,还有十几项专门应用于产品和消费者的连接,以实现“让每一件商品都应需而生,让每一个消费者都得偿所愿”的目标。
AI科技评论:生成式AI如何更好地跟诸如电商等消费场景结合?
周伯文: 人类要么只能搞明白企划这一块的业务逻辑,或者营销这一块的逻辑,AI却能将所有的业务链条打通。
消费者在如电商平台等场景中,需要很多专业的词汇才能找到所需的商品;但在另一侧,商家却不懂消费者的真实需求,只能通过电商交易来触达消费者、通过咨询调研机构来进一步了解消费者。而在引入像ProductGPT这种多轮对话功能后,商家和消费者就商品的动态匹配效率会比市场调研更高效,从而让电商平台能够更深度地参与到商品的创新、设计、研发、营销推广等过程中。
在实际的商业社会中,需求侧和供给侧其实是有很强的对应关系。我们自主研发的领衔Collaborative Innovation Platform SaaS基于大模型的多模态理解、推理与生成能力,通过深刻洞察消费者、场景、商品、品参、研发,协助企业发现商业机会与产品创新。同时,衔远科技的ProductGPT多轮对话平台为企业的每个员工提供根据不同职业角色深度定制的个人助手,通过提供角色特定的技能与知识满足其特定的工作需求。例如,衔远科技的消费者研究个人助手会提供研究市场趋势、理解消费者需求、市场调研等专业技能与相关知识。
AI科技评论:您当年在京东已经使用生成式AI赚钱了,具体是怎么做到的?
周伯文: 我在2019年就已经带领京东AI团队落地应用了通过生成式人工智能去创作商品文案并选择图片的工作,那也是京东的第一个生成式大模型。当时,我们的AI大模型主要完成三件事:
第一,能够自行阅读商品详情页上的内容,通过分析直接生成这款商品的 8- 9 个卖点;
第二,消费者在浏览某件商品时,大模型会通过针对不同消费者的行为数据分析,迅速找出哪几个卖点更能打动这名用户;
第三,AIGC会根据用户画像,围绕消费者最关注的卖点生成专属的广告语。
在实行了一段时间后,商品推荐的转化率比之前提升了30%。消费者可能都没有意识到,自己在京东搜索购物时,看到的产品品类、描述其实是在他浏览商品的一瞬间,AIGC逐字逐句根据用户的偏好、结合商品的卖点量身定制自动生成的。
AI科技评论:如何看待OpenAI开放API,这对行业来说意味着什么?
周伯文: 以个人的经历来讲,我曾是IBM Watson集团的首席科学家。当时美国部分行业数据受到监管,这类企业一般是无法合作的,只能是私有云部署方式。为此,在2015-2016年时我就坚定要做公有云。为实现这一点,就需要将Watson的AI能力API化。当时,由我主导了包括对话、自然语言理解等几十个 API 的上线。把这些API放在云平台上,现在IBM的AI业务主要以此营利。
我在2017年年底回国,2018年4月发布了京东的人工智能开放平台。当时,国内基本是没有AI平台的,这也为京东带来了可观的收入。2019年,由我带领的京东 AI 团队就创造了1.7亿元营收,对于一个200人规模的团队这个成绩是很不错的。
AI科技评论:业内有个认知,做垂直大模型风险很高,您怎么看?
周伯文: 我认为,未来那些定义明确、高价值的工作流程将由专业 AI 模型完成而不是通用 AI 模型。通用大模型在某个垂直场景做成功之后,再去进一步提升其基础能力,就很容易。另外,从垂直场景切入的话,算力、数据、算法方面,我们过去的积累都能更充分的发挥作用。所以在衔远科技,大模型在技术底层框架上必须具备通用大模型技术的基础能力,并用科学的方法评估,但同时也需要专业的训练。
2023年,因为ChatGPT的突然火爆,市场开始用AI 2.0来形容其带来的巨大潜力。另外,几乎所有的科技巨头都加入战局,创投市场试图抓住新风口,市场环境也快速变化。GPT是一个系统性的创业机会,但仅仅复制、跟随、追赶,风险高、难度大。
创立衔远科技后,我们已经和超过100家客户进行过交流,看到了真实的需求,通过不断优化大模型提高技术实现路径:“2022年,我们论证了这个场景的商业价值和技术可行性,这意味着就算是做大模型,我们也是和OpenAI在走不同的赛道,盈利模式也不同。
我想要做的是比现在GPT更好的世界知识压缩器,这需要互动性很好的数据,而数据显然是与场景息息相关的。而什么样的数据拥有人类更高智慧的意义,这里面其实都有很多的理论工作要去做,都是我们未来值得探索的方向。