从热潮到理性,大模型迎来产业「拐点」
图片来源:由无界 AI 生成
无人不谈大模型,是今年上半年科技界的真实写照。
从市场热闹程度来看,大模型已经成为各家科技厂商争先涌入的赛道,无论是互联网巨头,还是科技公司,甚至是研究机构,均已加入这场大模型混战,大模型俨然成了“兵家必争之地”。
就在国内大模型市场正如火如荼时,一举带动大模型热度的ChatGPT却出现访问量下降的情况。据第三方监测机构SimilarWeb的最新数据显示,今年5月,ChatGPT开始出现增长放缓的势头,当月增长率仅为2.8%,而2023年前四个月分别为131.6%、62.5%、55.8%、12.6%。这是自2022年11月30日发布以来,ChatGPT首次出现流量负增长。
这一现象或许反映出重要的行业动向,各方正在从初期对大模型的技术热情,转变为对商业化落地冷静思考。而大模型的落地,也正是所有大模型企业都需要认真思考的话题。
“京东认为,大模型的价值=算法×算力×数据×产业厚度的平方。”京东集团CEO许冉表示。京东不止追求技术的先进性,也格外关注产业厚度——看重技术能在多少产业场景切实应用,能为社会创造各种价值。
7月13日,京东推出言犀大模型。据京东介绍,这是参数达到千亿级的新一代模型,未来将深入应用于零售、金融、物流、健康、工业等产业场景。
当产业效率和产业的边界拓展得到质的提升后,大模型才有了更重要的实际价值和意义。在大模型的众声喧嚣中,我们更应该回归理性,认真思考大模型的真正价值。行业需要什么样的大模型?大模型应该如何实现落地商用,为产业降本增效?
逐鹿大模型:从通用迈向产业的共识
一夜之间,国内大模型纷纷“涌现”。
据科技部下属的中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,截至5月28日,国内规模在10亿级参数以上的基础大模型,至少已发布79个。我国研发的大模型数量已经排名全球第二。
但在研发数量暴涨背后,如何实现大模型的商业价值,更值得探索。
目前来看,现在问世的更多是通用大模型,这类大模型具备强大的自然语言理解、语言生成和语音识别等能力,在聊天、娱乐等通识属性较强的场景上表现颇佳,但这些场景目前还难以实现大规模商业化。
而在细分的产业场景上,通用大模型回答准确度较低,这是因为产业本身数据样本量较少、数据分布不均、应用场景多变,导致大模型无法进行自我优化和改进,输出精度自然不高。
从商业化落地来看,企业或许并不需要一个“全能”的通用大模型,而是更需要针对细分领域场景、解决实际问题的产业大模型。
中国工程院院士邬贺铨曾指出,“Chat类的大模型引发新一轮热潮,但对话、写诗、作画绝不是大模型的全部。我们需要去深入思考大模型的应用方向,要将大模型切实投入到城市发展、金融科技、生物医药、工业制造、科学研究等领域,也需要专业的企业和组织加速其在实体产业落地,为产业刚需带来实实在在的价值,真正意义大规模服务社会。”
如今,大模型市场正在形成一种共识,那就是无法落地商用的大模型只是“娱乐工具”,只有深入产业、解决实际问题的大模型,才具备价值。深入思考大模型的价值,京东提出的一个公式,更符合大模型市场的动向,即:大模型的价值=算法×算力×数据×产业厚度的平方。
从大模型价值公式可以看到,产业大模型和通用大模型不是对立的关系,产业大模型是基于通用大模型的基础,训练而来,区别在于:产业大模型更关注产业厚度,生成的内容更符合产业垂类场景的需求,更有针对性。
在大模型的演进路线上,京东的前瞻性其实并不奇怪。自成立以来,京东就扎根于产业,自然对大模型在产业中的价值更加关注。
“京东看待大模型和其他技术创新,除了追求技术的先进性,还格外关注产业厚度——看重技术能在多少产业场景中切实应用,为社会真正创造价值。”京东CEO许冉表示。
事实上,现阶段大模型的发展,正在从“通用”迈向“产业”。
民生证券最新发布的研究报告提到,在经历二月至三月的大模型集中发布期、四月至五月的产品研发期和政策方向逐步明确后,六月起大模型的产品和应用,有望迎来集中发布。新一轮发布潮是基于大模型的应用产品,开始大规模升级上线,为走进千家万户做准备。
近期,国内科技企业最新发布的大模型,大多都面向垂类产业落地。在海外,各企业也陆续发布了不同规模的行业大模型,目的就是将其应用于产业领域。
从海内外各大厂商的实际动向不难看出,产业大模型将更能够帮助产业伙伴,来完成数字化转型和降本增效,为产业和社会创造更大价值。
产业大模型,难在打牢产业地基
产业大模型的建设难度,远比通用大模型高得多。
如果说通用大模型考验的是企业的算力、算法积累,那产业大模型更考验企业对业务场景的触达与理解,以及对产业数据的积淀与运用。
一个行业共识是,在产业大模型的训练中,最难获取的是产业数据。产业数据往往掌握在企业手中,出于数据安全等考虑,很少有企业愿意将私有数据公开。但这些产业数据往往直接或间接影响着产业大模型的技术迭代速度、模型精准度和业务专业度。
“产业数据还分为静态数据和动态数据。静态数据相对稳定,不会发生即时变化,获取路径也较为清晰。动态数据则是不同产业场景中,每时每刻产生的数据,这部分数据是‘活的’场景数据。不容易获取,但却是产业大模型的必备要素之一。”京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬强调。
不过,产业大模型的训练也不能只用产业数据,仍需要使用大量通用数据,来提供常识性知识。其原因在于:首先,产业数据的泛化性不足,每次换个场景都需要重新训练大模型,成本较高;其次,在应用时,如果用户提出的问题与该领域无关,产业大模型就会陷入卡壳状态。
何晓冬把训练产业大模型比作培养一个人,“如果一个人高中毕业后直接出去打工,似乎也行,但专业性会差一点。要是能读完四年本科再出去工作,就既有通识能力又有足够的专业知识,这是产业大模型应该具备的能力”。
为此,京东言犀大模型的数据,由70%的通用数据与30%供应链场景生长的原生数据构成。
值得一提的是,这些产业数据均来自京东自身。京东本身就是以供应链为基础的企业,自身扎根于宽广的产业,不仅在零售、物流、金融、健康、工业等产业拥有实践数据,还拥有城市、政务、金融、制造、工业、航空、交通、园区、能源等产业的脱敏数据,每年产生的优质数据达到百亿条。
产业大模型,除了需要源源不断供给的高质量产业数据,还需要了解行业Know-How,即对产业拥有特有的知识,对理解力要求也更高。举例来说,零售行业更关注营销、推荐的效果,金融行业更关注风控、可靠和安全的效果。
对于这种需求,京东长期耕耘的数智供应链就起到了关键作用,成为京东发力大模型应用的着力点。大模型也能够基于供应链数智化,深入到实体产业。
据悉,京东的数智供应链,已经覆盖超千万的京东自营商品SKU,服务超800万家活跃企业客户,包括90%以上的在华世界500强企业,和全国近70%的专精特新中小企业。同时,京东的数智供应链还在全国,与超过2000个产业带深度合作。
这种链路更长、场景更复杂、数据更丰富的数智供应链,是大模型的绝佳“训练场”。在京东云看来,只有将供应链做透,让大模型“跑”在供应链上,才能将大模型的价值做实。
除了在产业侧的积淀,京东在基础算法、算力等方面的实力也不容小觑。
2021年,京东探索研究院就在重庆落地了全国首个基于DGX SuperPOD架构的超大规模计算集群——天琴α,推理提速6.2倍,推理成本节省90%。这为京东提供了最基础的大模型训练保障。
同年,京东推出了十亿级模型K-PLUG,K-PLUG生成的商品文案已覆盖京东超3000个品类,累计生成30亿字,人工审核通过率超过95%。到了2022年,京东大模型升级为百亿级模型Vega,能够广泛应用于情感分析、语义匹配、语法纠错、智能问答、常识推理等多种下游自然语言处理任务。
得益于此前的积累,京东今年再度进行技术突破,推出了千亿级参数的新一代京东言犀大模型,围绕内容生成、人机对话、用户意图理解、信息抽取、情感分类几大类任务,实现了基座模型+垂直领域模型精调,并且应用深入零售、物流、金融、健康、政务等垂直场景。
目前,以京东大模型为代表的产业大模型,正在通过自身积淀的行业化、场景化的数据和知识,对大模型进行训练,并结合自身所积累的行业Know-How,对大模型进行修正,以提升大模型在特定行业及应用场景的表现,并提高可控性。这相当于对AI完成了“通识教育”。
京东大模型正在逐步深入各个产业,提升供应链的智能化水平。反过来,供应链的数智化升级也在推动产业变革,进而为大模型提供更丰富的数据土壤,形成正向循环。
“从产业端切入大模型,如同从北坡攀爬技术珠峰:道路虽然更加艰难,却有更波澜壮阔的风景。京东坚持做‘难而正确的事’,坚持做实事、有价值的事和长期的事。在技术领域、在大模型上,这都是我们不变的承诺。”许冉表示。
“难而正确的事”需要长时间的积淀。但在产业大模型的建设上,京东显然已经打好了地基。
生于产业的京东,用大模型创造产业价值
“在大模型时代,任何事情都值得用大模型重新做一遍。”
在大模型浪潮下,业界迅速达成了上述共识。不过,当其他大厂正在通过各种策略寻找商业模式时,京东落地产业的方向始终未变过。
“产业属性是京东技术的鲜明特征。京东研发每一项技术,都技术源于产业需求,历练于产业场景,创造产业价值。”许冉表示。
当前,京东言犀大模型正在按照“三步走”战略迈进:目前,京东云已经基于内部实践构建了通用大模型;到今年年底这段时间,京东将经由高复杂场景大规模锤炼,迭代出扎实的产业服务;预计在2024年初,会将大模型能力向外部严肃商业场景开放。
从具体实践来看,京东大模型已经走到了第二步,京东正将大模型的能力用于最熟悉的零售、金融、物流、健康等场景,已经深入各个环节。
举例来说,京东正在通过大模型提升智能客服的能力。客服领域不同于日常闲聊对话,是一个严肃的任务型对话场景,需要解决真实世界中买方与卖方的各类复杂问题。
“用户和ChatGPT对话,即使回答错了也没关系,不会影响任何决策。但如果在严肃的商业场景中,智能客服回答错误,后果则不堪设想。因此,回答的精度很重要。”京东集团技术委员会主席、京东云事业部总裁曹鹏表示。
针对智能客服场景,京东既搭建了具备基础语义理解和问答逻辑的大模型,同时打磨了面向具体场景的小模型。如果客户的问题涉及常见的退换货等,智能客服就会调用更通用的大模型。而一旦问题涉及具体商品的保修政策、价保规则,智能客服则会调用针对性更强的小模型,来给出答案。不同的模型能够承担不同的职责。
现在,智能客服正在京东内部,助力2万多名自有客服员工的降本增效,不断优化客户服务体验。京东还对外开放了智能客服能力,帮助更多政府机构和企业进行数智化转型升级。
在大模型对外服务方面,京东依旧保持着自己的“慢”节奏,并没有急于将大模型“兜售”给企业。其原因在于,人工智能是一场非常严肃的技术变革:如果用得好,能够帮助产业改天换地,但使用不当也可能造成严重的后果。在这种情况下,京东秉承长期主义的心态,不失为绝佳的选择。
“京东不会把没有实现‘色香味俱全’的菜肴端上餐桌。大模型在内部关键场景完成了历练和实践后,才会开放给合作伙伴,来帮助整个行业降本增效。”许冉表示。
在京东的规划中,言犀大模型将成为最底层的技术支撑。基于它的能力,领域都会产生一系列产品,同领域产品再聚合为平台,最终对行业输出价值。
举例来说,在内容生成领域,京东就打造了京东云AIGC内容营销平台。基于京东全品类的丰富商品数据积累,大模型可以更好理解商品特征,帮助商家自动生成商品图片、卖点等营销素材,提升商家的运营工作效率和营销内容质量。
换言之,商家只需要上传一张产品图片,就能够迅速得到电商运营需要的商品主图、营销海报图和商详图等多类型套图,满足快速开店、上品和营销的需求。这些能力,能够为商家在制图方面节省90%成本,将制作周期从7天缩短到半天。
利用更多大模型能力,商家甚至都不用自己卖货,只需使用京东云多模态数字人,即可24小时不间断、低成本地带货。
在这些应用以外,京东还展示了金融领域AI营销运营平台。使用者通过简单的对话,就能一站式生成营销活动,覆盖运营策略制定、营销任务调度编排、搭建活动页面、批量生成营销文案和素材、数字化投放等方面。据京东相关数据显示,过去这套流程需要产品、研发、算法、设计、分析师5类职能人员,如今减少到1人;过去流程需要2000次人机交互,也减少到少于50次。在大模型能力的加持下,营销方案的生产效率有了显著提升。
可以说,京东的产业大模型,正在成为各行各业产业应用的底座。目前其已经深入零售、物流、健康、工业、制造、金融、营销等多个行业,奔赴产业、奔赴实际应用。
大模型狂奔半年后,厂商们已经意识到“规模大”或是“参数高”并不能解决实际问题。当泡沫期结束,大模型落地终究还是要回归产业、回归真实场景、解决实际问题,才是技术的最终归宿,也是大模型良性发展的开端。那些具备了扎实产业数据和场景实践的企业开始走向台前。
显然,京东言犀大模型,已经向产业价值的彼端启航。