AMD发起AI芯片挑战,但英伟达依然独孤求败
作者:赵健
来源:甲子光年
图片来源:由_无界 AI_工具生成
英伟达CEO黄仁勋正在试图给行业建立一种印象——AI等于英伟达。
在AI大语言模型爆发的今天,要想完成对算力要求极高的AI训练,英伟达针对人工智能的GPU芯片几乎是唯一的选择。
这种供需的极度不平衡让英伟达的GPU一芯难求,就连OpenAI CEO山姆·奥尔特曼也在抱怨芯片短缺已经影响到了ChatGPT的发展。
黄仁勋对此一定喜闻乐见。2023年,在AI需求的推动下,英伟达的市值冲破万亿美元。
不过,有人正在试图打破英伟达在人工智能领域“独孤求败”的状态。
本周三,AMD(超威半导体)在其首次“人工智能与数据中心”产品发布会上,正式发布了年度旗舰芯片Instinct MI300,一款可以对标英伟达Grace Hopper系列的超级芯片。
Instinct MI300有两个版本:MI300X仅有GPU,专为AI模型训练设计,封装了1530亿颗晶体管;MI300A则是集多个CPU、GPU和高宽带内存于一身的APU(AMD在2011年时提出的产品概念),封装了1460亿颗晶体管。
Instinct MI300的发布意味着,英伟达不再是AI公司对算力的唯一选项。AMD确实也成功吸引到了一些AI明星独角兽,比如Hugging Face,AMD将为其CPU、GPU和其他AI硬件优化模型。
Instinct MI300承载着AMD在人工智能领域的野心。AMD CEO苏姿丰近期曾表示:“如果放眼五年,你会在 AMD 的每一款产品中看到人工智能,它将成为最大的增长动力。”
AMD是英伟达的老对手,两者在GPU市场的竞争已经持续了17年,大部分时间都以英伟达的胜利而告终。
而这一次,已经在CPU市场证明过一次的AMD,能否把成功经验复制到GPU市场?
1.AMD想要英伟达的AI皇冠
AMD是全球知名的老牌半导体公司,成立于1969年。在今年Gartner发布的全球半导体公司的排名数据来看,AMD位列第七。
CPU是AMD的发家业务。1981年AMD获得了英特尔X86系列处理器的授权,在PC时代的红利期一举做到了行业第二,而这个行业老二,一做就做了几十年。
在CPU之外,AMD又通过不停地并购,逐步建立起“CPU+GPU+DPU+FPGA”完整的芯片布局。
其中比较重要的并购事件包括:
-
2006年7月,AMD斥资54亿美元收购当时的GPU行业老二ATI,正式与英伟达展开GPU的竞争;
-
2022年2月,AMD斥资498亿美元完成对FPGA厂商赛灵思的收购,加强在数据中心业务的布局;
-
2022年4月,AMD宣布以19亿美元收购DPU芯片厂商Pensando,继续扩大数据中心业务。
AMD的业务构成分为四大板块:数据中心、客户端、游戏与嵌入式业务。
数据中心包含AMD所有的服务器相关的收入;客户端收入主要涉及台式机与个人电脑,曾经是AMD最核心的业务之一,现在收入占比已经不高;游戏业务主要涉及GPU产品线,索尼、微软是稳定的大客户;嵌入式业务则主要来源于原赛灵思的业务。
随着人工智能成为一种趋势,数据中心成为各大云巨头高度重视、大力投入的业务,也是英伟达、英特尔与AMD的兵家必争之地。
在此前的2023年Q1财报会上,AMD强调AI为目前公司的第一战略重点,AMD正致力于构建更加多元的AI产品矩阵。
而昨天AMD的产品发布会,就是首次以“人工智能与数据中心”为主题。苏姿丰在发布会上强调,在大型语言模型的推动下,人工智能的市场机会越来越大,到2027年市场潜力可能从目前的300亿美元增加到约1500亿美元。
AMD不想错过这场AI盛宴,但英伟达是横亘在眼前的不得不翻越的大山。
在最新一季的财报中,AMD的数据中心业务营收12.95亿美元,同比上一季度的12.93亿美元,基本没有增长。反观英伟达,今年第一季度的数据中心业务营收创历史新高,同比增长14%至42.8亿美元,是AMD的三倍多。
而根据量化对冲基金Khaveen Investments测算,英伟达数据中心GPU在2022年的市占率高达88%,AMD和英特尔瓜分剩下的部分。
虽然AMD是GPU市场的老玩家,但其过去的GPU系列产品主要应用于图像处理及AI推理领域,而对于并行计算要求更高的AI训练却入场较晚。
而Instinct MI300的发布,意味着AMD试图在AI训练市场,改变英伟达一家独大的局面。
2.进军AI训练
Instinct MI300是第一款面向数据中心的高性能“APU”——一个由AMD独创的概念。
2011年(AMD收购ATI的第五年),AMD在产品构想中以CPU和GPU分别类比人类左右脑,并基于此提出了“CPU+GPU”的异构产品策略,并将其命名为APU。
类比人脑,AMD认为左脑更像CPU,负责对信息的逻辑处理,如串行运算、数字和算术、分析思维、 理解、分类、整理等,而右脑更像GPU,负责并行计算、多模态、创造性思维和想象等。
图片来自华泰研究
不过,2011年的AMD正处在“失去的十年”低谷期,无论是在CPU线还是GPU线,都没能拿出足够优秀的产品,APU的发展不尽如人意。
时间来到2020年3月,AMD发布了新的微架构版本CDNA,专门针对数据中心的高性能计算、AI计算而设计。在此之前,AMD的GPU是用同一套架构同时解决游戏与计算场景需求,自然不利于不同场景的优化。
Instinct系列产品,就是专为HPC高性能计算、AI计算而生的。而最新发布的MI300,在规格及性能方面都全面追击英伟达的Grace Hopper。
Instinct MI300采用了台积电5nm工艺,有两个不同的版本:MI300X仅有GPU,专为AI模型训练设计,封装了1530亿颗晶体管;MI300A则是集多个CPU、GPU和高宽带内存于一身的APU,封装了1460亿颗晶体管。
AMD声称Instinct MI300比上一代产品MI250的AI性能高8倍,它可以将ChatGPT和DALL-E等超大型AI模型的训练时间从几个月减少到几周,从而节省数百万美元的电费。
AMD在发布会现场演示了MI300x运行400亿参数的Falcon模型,让它写了一首关于旧金山的诗。苏姿丰表示:“模型对容量的要求越来越大,你实际上需要多个GPU来运行最新的大型语言模型。”她指出,随着AMD芯片上内存的增加,开发人员将不需要那么多GPU。
AMD尚未公布MI300定价,但管理层在FY23Q1财报电话会中表示数据中心产品将延续往日的高性价比定价风格,重点先把市场打开。
AMD预计MI300将于今年底前推出,并将搭载于劳伦斯利弗莫尔国家实验室的百亿级超级计算机EI Capitan及其他大型云端客户AI模型中。
大摩分析师Joseph Moore给出乐观指引称,AMD已看到来自客户的“稳定订单”,公司2024年的AI相关营收有望达到4亿美元,最高甚至可能达到12亿美元——这一预期是此前的12倍之多。
不过,尽管AMD几乎是唯一一个有能力对英伟达带来挑战的公司,但这必然是一个非常艰难的过程。
3.英伟达的护城河
在AMD的产品发布会之后,资本市场对此反响平平,AMD的股价下跌了3%以上,反而是英伟达的股价又上涨了3.9%,市值再次超过一万亿美元。
在投资人眼里,AMD的年度芯片MI300似乎仍然难以撼动英伟达的根基。
比如,AMD没有在发布会上透露它的年度芯片获得了哪些大客户的支持。TIRIAS Research首席分析师凯文·克雷韦尔(Kevin Krewell)表示:“我认为,没有(大客户)表示将使用MI300X或MI300A,这可能会让华尔街感到失望。他们希望AMD宣布已经在某些设计方面取代了英伟达。”
目前透露的客户仅有开源大模型独角兽Hugging Face,以及更早之前透露的劳伦斯利弗莫尔国家实验室。但两者与对数据中心芯片有更大需求的云巨头而言不在一个数量级。
从芯片本身的性能而言,虽然MI300在一些参数上超过了英伟达,比如晶体管数量要高于A100的540亿个,但是英伟达可能很快就会通过产品的迭代来弥补。
实际上英伟达已经在这么做了。5月29日,在AMD发布会之前两周,英伟达在COMPUTEX 2023展前发布会上,正式发布了全新的GH200 Grace Hopper超级芯片,拥有2000亿个晶体管,比MI300还要高。
更重要的是,英伟达同时宣布了谷歌、微软和Meta将是首批采用这一超级芯片的大客户。
除了产品本身过硬之外,英伟达另一个铜墙铁壁一般的护城河,就是它的CUDA生态。
英伟达于2007年发布CUDA生态系统。通过使用CUDA,开发者可以将英伟达的GPU用于通用的计算处理,而非仅限于图形处理。
CUDA提供了一个直观的编程接口,它允许开发者使用C,C++,Python,以及其他一些语言来编写并行代码。
AI大神吴恩达曾对此评价:“CUDA出现之前,全球能用GPU编程的可能不超过100人,有了CUDA之后使用GPU就变成了一件非常轻松的事情。”
AMD在2016年推出了ROCm,目标是去建立可替代CUDA的生态。2023年,CUDA的开发者已达400万,包括Adobe等大型企业客户。用户越多,粘性越好,起步就晚的ROCm要想构建开发者生态还需要时间。
Moor Insights & Strategy分析师Anshel Sag表示:“尽管AMD在硬件性能方面具有竞争力,但人们仍然不相信AMD的软件解决方案能与英伟达竞争。”
这是属于英伟达的独一无二的护城河。AMD要想打破,极具挑战。
4.AMD的成功,可能难以复制
对于AMD来说,或许最不怕的就是面对挑战。
从2006年到2016年,这是AMD“失去的十年”。这一时期,AMD的两个最大的竞争对手英特尔和英伟达,正在摩尔定律的驱使下进行产品迭代。
英特尔践行着“Tick-Tock钟摆策略”,每两年做一次大的产品迭代更新(一年工艺制程、一年微架构设计);英伟达则在黄仁勋提出的“黄氏定律”——显卡每6个月性能提升一倍——的指引下,每半年将产品升级一次。
AMD没能跟上两个行业老大的产品更新节奏,公司发展一度濒临崩溃,直到2014年苏姿丰作为AMD第五任CEO接手。
苏姿丰刚接手的AMD是一个烂摊子,它的笔记本电脑市场被英特尔占据,新兴的智能手机市场被英伟达、高通和三星瓜分,服务器市场份额也从原来的1/4缩水至仅2%。AMD不得不解雇了大约四分之一的员工,股价徘徊在2美元左右,分析师直称“已无法投资”。
当时英特尔CEO柯再奇如此评价AMD:“这家公司永远不会再回来了,所以不要再介意把重点放在新的竞争对手高通身上了。”
但后来的故事大家都知道了。在苏姿丰的带领下,AMD在CPU市场打了一场漂亮的翻身仗,不仅一步步蚕食了英特尔的市场份额,股价也在2022年2月历史性地反超了英特尔。
AMD之所以能够在CPU市场突围,很重要的原因在于抓住了对手英特尔的战略失误。
在芯片制造这一环节,AMD与英特尔选择了不同的路线。AMD在2009年剥离了旗下的芯片制造业务,合资成立了独立的晶圆代工厂格芯,而自身只专注于芯片设计(Fabless),这让AMD可以选择独立的第三方晶圆代工厂(Foundry)。英特尔则从成立以来一直是集芯片设计与芯片制造于一身(IDM)。
在半导体产业发展的早期,像英特尔这样高度垂直整合的IDM才是更主流的模式。AMD联合创始人Jerry Sanders还说过一句名言:“有晶圆厂才是真男人(Real men have fabs)。”不过讽刺的是,AMD正是因为后来剥离了晶圆厂才有机会完成逆袭。
2014年之后,英特尔的芯片制程遭遇技术困难,10nm芯片(相当于台积电7nm)良率不佳,导致原定于2016年下半年的10nm量产多次推迟,最终到2019年下半年才发布。此前英特尔一直坚持的Tick-Tock策略也因制程技术原因而放弃。
英特尔创始人戈登摩尔提出了摩尔定律,但英特尔现在却遭遇了“摩尔定律的诅咒”。这让AMD抓住了反超的机会。
2018年,AMD先是与格芯合作,推出12nm制程的Zen+架构,首度在制程上超越了14nm的英特尔。随后在2019年,AMD与台积电合作,推出了7nm制程(相当于英特尔10nm)的Zen 2架构,领先英特尔。自此之后,英特尔一直在制程上落后AMD一拍,直到现在仍然没有改善。
今天,类似的“老二挑战老大”的剧本似乎在重新上演,只是战场从CPU换成了GPU。虽然AMD还是“苏妈”带领的AMD,但黄仁勋带领的英伟达,却比当年的英特尔风头更盛。
在硅谷,黄仁勋被称为好斗的男人,爱穿黑色皮衣,时刻做好反击的准备,股价涨到100美元时还把英伟达logo文到胳膊上。
2016年黄仁勋还不把AMD放在眼里,他直接评价说英伟达跟AMD是“9跟0”的差距。2019年初AMD抢在英伟达之前首发7nm显卡,黄仁勋表面上似乎也毫不在意,直称“这显卡很一般”。
而今天,AMD再一次用更好的产品向英伟达发起挑战。一边是踌躇满志的AMD,一边是独孤求败的英伟达,一场关于人工智能的GPU大战,现在才刚刚开始。