金年会:大模型训推需求推动芯片加速迭代,各类市场主体差异化创新
作者:金年会发布时间:2025-01-15
大模型热潮进一步推动计算底座迭代升级。大模型计算特性对硬件要求极高,带来分布式训练支持、混合精度计算支持、高速互联通信等新要求新挑战,驱动计算底座迭代升级,呈现三大趋势特点:
一是芯片架构向定制化演进,迎合 Transformer 计算特性。如英伟达自 Hooper 架构引入 Transformer 引擎提升算法计算性能,并利用启发式算法实现数据 精度动态切换 (Blackwell 架构二 代Transformer 引擎已支持 FP8、FP6、FP4 等多种低精数据),在保证性能的前提下降低计算总量;芯片创业公司Etched 推出仅支持Transformer 架构的 Sohu 芯片,牺牲编程能力提升计算速度,推理吞吐量达到 H100 的 20 倍。
二是存储与互联重要性日益提升。随着大模型参数持续增长、输入输出数据长度快速提升,模型参数和计算缓存 kv 值消耗的内存空间呈指数级增长,存储和互联成为主要瓶颈,在芯片单位面积算力接近天花板且性能相对过剩的背景下,头部硬件厂商创新升级重点从卷算力向卷内存、卷互联转变,如AMDMI300X 宣传时已淡化算力色彩,重点突出显存和互联指标,英伟达B200 显存容量和显存带宽提升幅度(240%×H100),均超过算力提升幅度(220%×H100 @FP16)。
三是强调软硬协同升级释放硬件计算潜力。如 AMD ROCm 6.2 更新扩展了专为语言大模型所设计的 vLLM 库支持,提升了 Instinct 系列加速器的AI 推理能力;英伟达参与 FlashAttention 3 注意力算法设计,充分利用H100 芯片动态warp 寄存器分配、FP8 精度支持等特性,相比FlashAttention 2速度提升 1.5-2 倍。
多方试图破局,出现三类挑战者。尽管目前英伟达垄断人工智能计算生态,但面对高昂的采购成本和庞大的市场空间,各方持续寻找替代英伟达的解决方案,出现三类挑战者。
一是以AMD、英特尔为代表的半导体巨头,凭借深厚技术积累、庞大资金支持和市场渠道优势,推出面向大模型和人工智能的高性能计算产品,如AMDInstinct MI325X 芯片、英特尔 Gaudi2 芯片等,在内存容量、存储带宽、性价比等方面形成差异化竞争优势。
二是以Cerebras、Groq、d-Matrix、Graphcore 等为代表的芯片初创企业,尝试通过超大尺寸芯片、存内计算、近存计算等非常规技术路线取得突破,已获得OpenAI、微软、三星等行业巨头投资。
三是以微软、Meta 等为代表的互联网巨头加快自研芯片进程,试图摆脱对英伟达依赖,提升议价能力,如谷歌 TPU 已更新至第五代(TPU v5p),支持多模态大模型 Gemini 训练;微软推出 MAIA 100,采用5nm工艺,服务微软云大模型训推;Meta 发布首款自研推理芯片MTIA v1,基于7nm工艺 ASIC 芯片,与自身 PyTorch 框架高度适配。
此外,量子、类脑、光计算等前沿颠覆式路线也加紧与大模型应用结合,规模商用虽有差距,但为复杂高效计算系统实现开辟新路径,如清华大学光计算芯片“太极”实现 160TOPS/W 的超高能效,能够以更低的资源消耗和更小的边际成本支撑大模型训练推理。金年会官网入口
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案
