大模型席卷汽车,是真风口还是伪需求?
作者 | 姜悦
来源 | 金错刀车评(ID:jincuodaocheping)
图片来源:由无界 AI生成
最近,汽车圈最热的事件莫过于蔚来推出手机。
蔚来CEO李斌称,一部跟汽车互连的手机,有利于增加车的竞争力。
其他车企虽然关于手机的靴子还未落地,但不得不说,大模型的风,却几乎无人缺席。
不管用户是否体验到这一波风口,但汽车圈可是先高潮了。
李想在微博喊话,“大模型的研发和训练是智能电动车企业的必要能力。”
魅族手机也借此支棱起来了,宣布与吉利合作推出车机,声称要“开启车机联合大时代”。
尽管各家都在疯狂搞大模型,但现阶段距离大模型的真正上车,显然还有不小的距离。
大模型上车,到底是真风口,还是伪需求?
大模型上车,先从”人工智障“开始
车载语音交互其实早就已经出现了,甚至比车载大屏车机出现的更早。
但一直受限于用户语音识别不好,被车主们嘲为“人工智障”。
随着ChatGPT爆火后,人工智障也有了一个新的“改头换面”机会,一时间,机器对用户语言的理解突飞猛进,在线文档、搜索应用都纷纷加入了大模型功能。
各家车企自然也没错过这个风口。
今年2月,尚处在襁褓中的文心一言,就早早被吉利、长城、红旗、东风日产、岚图等车企盯上。
奔驰则更是快了一步,真正将大模型落地。今年6月,奔驰高调宣布,将为90万辆车的车载语音助手接入ChatGPT的能力,很快登上热搜引发舆论关注。
眼下在国内,尚未上线的、车企自研的,一场汽车智能座舱大模型之战似乎打响。
有的大模型,不仅为车企提供聊天机器人,还要将文图互生、健康监测、文档解读等能力搬上车。
有人说,如此一来,以后车上托儿、办公也是指日可待。
不过计划很美好,现实却还是没太多惊喜。从整个车企来看,大模型大致分成两类。
最常见的一类,用于人工智能交流对话领域,多数应用在智能座舱,更直观说就是语音助手。
比如,百度的文心一言;阿里也宣布AliOS智能汽车操作系统,已接入通义千问大模型进行测试等。
另一类则是聚焦智能驾驶。比如毫末智行发布了自动驾驶生成式大模型DriveGPT,帮助解决认知决策问题;理想汽车自研大模型MindGPT,则是试图让汽车做到更接近人类司机的驾驶表现。
蔚来、小鹏也没闲着,纷纷注册申请了多个与GPT相关的商标,也在不断开发新系统。
蔚来新款EC6上更新的Banyan 2.1.0系统,Banyan 2.1.0系统还提升了语音操作车机的能力,只要当前页面显示的东西,都可以做到用语音触发。
魅族则是喊话,自己研发出独特的Flyme Auto智能座舱系统。说白了,就是通过Flyme Auto,用户在手机上怎么操作,在汽车就怎么操作。
总的来看,目前的车企受限于研发难度,大多选择与大模型提供方合作,自研派较少。
其实自不自研对用户来说没那么重要,人们更关心的,还是我到底能用大模型来干什么,以及有什么方便。
想让用户买单,大模型还有几道坎
车企们信心满满,个个都把大模型当作新的卖点,仿佛不做就要低人一等。
不过,想要让用户买账,却没那么容易。
图森未来CTO王乃岩日前呛声“自动驾驶大模型是伪命题”,他认为大模型最重要的特点是能摆脱场景限制的强泛化能力,但“任何所谓的自动驾驶大模型都还没达成这样的能力。”
目前绝大部分汽车都配置了智能语音助手,但即使是能力较强的那一批,仍然存在几个显眼问题:
人和语音助手的交互依然略显机械,并没有做到像一个人一样沟通。
反应速度依然不快,有人更是一句极其扎心的评价:聊闲天强,干实事弱。
用户不舒服,车企也不好过。
比如毫末智行的DriveGPT,采用了类GPT的结构,在云端拥有1200亿参数。
不过,要将1200亿参数的模型压缩到能塞进车内,显然当下的芯片性能还不足以支持,想法越美好,落地就越困难。
拿下今年计算机视觉顶会CVPR最佳论文奖的UniAD论文作者、上海人工智能实验室科学家李弘扬,直接泼了盆冷水:
“现在这个行业没有自动驾驶大模型。我们给UniAD工作的定义也是‘自动驾驶通用模型’,而不是大模型。”
而且,ChatGPT至今没能改掉胡编乱造的“缝合”问题,没别的解决方法,只能是不停地喂案例喂数据,慢慢培养。
放到汽车上这个问题同样明显。
前不久马斯克的智能驾驶功能FSD V1直播里,在直播进行到第19分钟时,直行等待红灯转绿的特斯拉,却在左转灯变绿时擅自冲了出去,被马斯克一脚刹停。
在被问及解决方案时,马斯克的回应是,“继续向神经网络投喂大量带有左转交通灯的驾驶视频。”
大模型不好上车,其实也是情理之中。
首先,车企做大模型,多模态数据的收集、处理、训练本身是一个难题。
自动驾驶所需传感器数据需要大量的场景数据,比如交通标志线、交通流、行为模型,数据之复杂让汽车大模型的研发、训练门槛变得很高。
其次,即使使用同一个大模型,不同车企由于积累的数据与对场景的理解不同,最终呈现出的效果也会有明显差别。
另外,关于AI大模型训练,业内人士认为至少需要3—5年甚至更长的时间,以这样的速度看,现在的汽车大模型,明显还处在宝宝阶段。
一切追风口,都必须回归用户体验!
最近,不少大厂纷纷向社会开放大模型。
的确点燃了很多人的好奇心,想一探究竟。汽车也是如此,AI智能汽车、飞行汽车等概念我们听的太多了,而一旦大模型真的落地,肯定会引起不小的关注。
不夸张地说,虽然现在大模型还并不成熟,但谁能真正做好落地,优化用户体验,显然比打五折促销还能刺激消费。
毕竟,在一个完美的大模型构想里:汽车可以更精确地听懂人类对话的含义,完成链路更复杂的任务,更准确地执行人类希望的操作。
某种程度上,这也是中国汽车硬刚特斯拉胜率最大的机会。
其实国内外汽车大模型都并不成熟。两周前,马斯克以“找小扎1V1男人大战”为由,曾亲自驾车直播了尚在开发中的特斯拉智能驾驶功能FSD V12版本,超过1100万人在推特上观看。
相较于目前的FSD V11.4,V12最大的特性是基本实现了“神经网络吞噬一切”。在马斯克口中,FSD V11.4还有30万行人类手写的代码,但FSD V12几乎完全是神经网络,构筑了一套端到端自动驾驶技术。
听起来玄乎,实际上还有很多要改进和探索的空间。直播翻车了,连马斯克都承认这一点。
大模型的探索还远未到想象天花板。如今,车企与大模型供应商在死磕的一件事是,将多模态感知大模型与大语言模型整合起来,让汽车的智能座舱同时建立起感知与认知能力。
简单说就是,以后的车机能够看懂车内人员的表情、手势,进而更深层次地理解人类更日常或者隐晦的表达。
不过,各家大模型的比拼,与其蹭那些听不懂的概念,不如回归用户体验,比比谁的语音助手更加智能贴心,谁的行驶反应速度更敏锐,这也是用户最在乎的细节体验。
别说更远的智能驾驶,就眼下说,用户会在单人开车的时候,敢真正放心用语音代替自己的手,对于国产汽车来说就算一大进步了。
画饼不如实干。是骡子是马,不是靠嘴说,还得拿出来遛遛。