小时 分钟
距开展时间:
参展申请
观众预登记
AI算力系列报告:推理芯片,生成式 AI 驱动,或迎来重大机遇
来源:幻影视界库 | 作者:幻影视界库 | 发布时间: 2024-05-12 | 115 次浏览 | 分享到:

一、生成式AI推理需求旺盛,量化技术升级降低推理门槛

1.1 生成式AI模型持续迭代推理需求旺盛

生成式 AI 模型性能不断提升,或处于大规模放量前夕,推理需求有望高速增长。 OpenAI 于 2022 年 11 月推出生成式 AI 应用 ChatGPT,在不到两个月的时间内,月活跃 用户数突破 亿人。以 ChatGPT 为代表的生成式 AI 应用快速迭代、落地,模型推理的 算力需求逐渐显现。随着生成式 AI 模型参数和 Token 数量不断增加,模型单次推理所需 的算力持续攀升。同时,ChatGPTGeminiKimi 等聊天机器人的用户数逐步上升, Microsoft CopilotAdobe FireflyWPS AI 等办公助手持续落地,用户侧的流量不断上 推理算力需求有望高速增长。

推理算力未来有望超过训练算力最终训练芯片推理芯片数量之比或达到 28目前 生成式 AI 模型仍处于快速迭代,各厂商相互追赶的阶段,随着模型性能的逐步稳定和应 用的陆续落地算力的推理需求有望超过训练需求。推理需求与训练需求计算量、 精度要求以及部署位置上存在差异一方面,训练需求的精度要求较推理需求更高,因 训练芯片也就要求有更高的精度范围,在高精度场景下同样需要具备较强的性能另 一方面训练芯片主要部署数据中心(云侧),推理芯片则会兼顾云侧与边缘侧的算力 需求根据施耐德电气的测算到 2028 人工智能推理负载有望占比达到 85%我 们认为:考虑到云侧和边缘侧巨大的推理需求,训练芯片与推理芯片数量之比或达到 28

1.2 量化技术有助于降低推理的算力门槛

量化技术Quantization是决定生成式 AI 推理成本的关键因素量化技术的迭代升级 有望降低推理门槛深度神经网络模型存在参数冗余问题,所有参数使用 32 位浮点 型数值FP32神经网络模型实际使用的精度远不到 FP32 所表示的范围如果针对 低位宽的数值计算进行优化,使用低数值进行大规模矩阵运算,模型推理过程明显 加速效果

模型量化指的是通过降低网络模型参数数值表示所需的位宽,在不影响模型任务性能情 况下达到降低精度内存容量的效果假设将一个参数全部是 FP32 的神经网络的权值 和激活值全部量化到 16 位整型数值INT16或 位整型数值INT8,其内存占用和 精度理论上均可减少至原的四分之一如果部署的处理器低精度运算较快,则能够有 加速推理过程目前 INT8 量化技术比较成熟,Google 的 TensorFlow英伟达的 TensorRTMeta 的 PyTorch 等模型部署框架均已支持 INT量化技术

量化技术快速发展,为 CPU+ASICCPU+FPGA 等技术路线的发展,以及国产算力的 放量提供了技术基础人工智能模型的量化技术从最初的 FP16 量化快速发展到目前应 用最成熟的 INT8 量化,再到正在进一步研究中的 INT4 量化,呈现出数据精度逐步降低, 内存或显存占用不断减少的趋势这一趋势有助于 CPU+ASICCPU+FPGA 等技术路 线通过软硬件的优化提高推理能力也有助于国产算力通过增加低精度计算单元等方式, 成熟的制程工艺实现可用的推理算力。

二、推理芯片多种技术路线齐头并进,推动生成式AI落地

2.1 英伟达AMD长期关注GPU的推理算力

英伟达和 AMD 的数据中心 GPU 产品在关注训练场景的同时,也始终关注推理场景的技术革新2022 年以来,英伟达先后推出了 HopperBlackwell 两代 GPU 架构,较此 前的 Ampere 架构增强了 FP8 甚至是 FP4 精度下的吞吐量,能够更高效地完成生成式 AI 模型的推理任务。AMD 推出的 MI300X 也较 H100 提升了 FP精度下的计算能力以 英伟达和 AMD 为代表的数据中心 GPU 厂商技术发展趋势,进一步表明量化技术的迭 发展对模型推理算力需求有重要的影响

另一方面,英伟达和 AMD 的消费级 GPU 产品,同样具备接近千亿参数量级的生成式 AI 模型的推理能力,从侧面说明推理芯片的门槛相对较低根据公开资料,Llama-7B 和 13B 模型能够成功部署在 英伟达 RTX 3090 服务器上,Llama-70B 则能够在 卡英伟达 RTX 4090 服务器进行部署尽管在推理性能上有一定的损失,但消费级 GPU 仍有完成接近千亿参数量级的生成式 AI 模型的能力

2.2 海外CSP自研芯片,或另辟蹊径

谷歌、微软、亚马逊Meta 等海外 CSP 企业大规模采购英伟达数据中心 GPU 的同 时,也在积极自研用于模型训练和推理芯片有望成为满足推理算力需求的另一种途 与英伟达和 AMD 的数据中心 GPU 类似海外 CSP 自研芯片同样关注算力集群的 规模化和扩展性。同时,由于面向 AI 场景的算力芯片与算法间存在紧密联系海外 CSP 重视算法与算力芯片间的协同设计通过支持新一代量化技术的数据精度、部署模型关 键算法的直接专用加速器等方法,进一步提高推理性能

谷歌于 2023 年先后发布了 TPUTensor Processing Unit) v5e 和 TPU v5p 两款 ASIC 芯片,重点提升了训练速度和推理的性价比对 PyTorchTensorFlow 等先进 框架进行了集成TPU v5e 和 TPU v5p 相较于 TPU v4训练速度上都有接近 倍左 右的提升,单位美元的推理性能也都提升 以上以 TPU v5p 为例,每个 Pod 由 8960 芯片组成,芯片间以 4800 Gbps 传输速率进行互连。Gemini 1.0 在训练时即 使用 TPU v4 和 TPU v5e我们认为:随着 TPU 性价比的进一步提升,有望在推理芯片 市场扩大份额,加速生成式 AI 模型的落地进程

微软、亚马逊Meta 同样发力自研芯片,生成式 AI 训练和推理提供更多的算力选 微软于 2023 年 11 月推出 Azure Maia 100目前正在通过搜索引擎 Bing 和 Office A系列产品进行测试Azure Maia 100 采用台积电 5nm 工艺,拥有 1050 亿颗晶体管, 能够支持低于 位数据类型。亚马逊于 2023 年 12 月推出了 Amazon Graviton4 和 Amazon Trainium2 两款自研芯片根据亚马逊云科技的测算,Graviton4 目前正在使 用的 Graviton3 处理器相比,性能提升 30%,独立核心增加 50%以上,内存带宽提升 75% 以上Meta 也有望推新款自研推理芯片 Artemis于 2024 年内完成 Artemis 在 Meta 自有数据中心的部署。我们认为:海外 CSP 企业自研 ASIC 芯片的尝试,也从侧面说明 面对生成式 AI 巨大的训练和推理需求,海外 CSP 企业也期望另辟蹊径,探索更具有性 价比和计算效率的算力解决方案,从而为多种技术路线的发展创造了可能性

2.3 国产推理芯片市场潜力大有望迎来重大机遇

国产推理芯片快速发展,已在推理和部分训练场景落地,未来有望迎来重大发展机遇。 以 Kimi 和 WPS AI 为代表的 端和 端应用陆续落地国内推理算力需求正在快速上 衡量算力大小的维度不仅包括集群峰值算力大小,要考虑算力实际部署中 的使用效率和优化程度。实际可使用的算力工程化结果,涉及从芯片到开发工具包 的多层次,算力提供者的工程能力及案例经验都有要求国产推理芯片在多个场景 下的部署,有助于国产算力厂商迭代优化自身产品,根据实际需求优化芯片设计及对应 开发工具包,加速形成软硬件一体的开发生态

运营商国内互联网厂商为代表需求端正在加速建设 AI 算力,有望推动国内推理芯 片市场快速放量2023 年以来,通信运营商已集中采购超 1.5 万台 AI 服务器,采购项目 体现了运营商对智算中心建设的重视,同时也反映了国内推理和训练算力已加速部署。 在新建成的 AI 算力基础设施中,国产 AI 芯片的使用率较高中国移动智算中心(呼和 浩特)部署的 AI 加速卡国产化率超 85%中国联通则基于华为昇腾 AI 基础软硬件在北 京建立了全国产化的智算中心2023 百度订购了 200 台 服务器搭配 1600 昇腾 910B

运营商和国内互联网厂商的持续部署,有助于支撑生成式 AI 应用在国内 落地,从而在实际运用中不断对推理芯片的性能迭代升级。 寒武纪面向模型训练和推理场景推出了 MLU370MLU370 采用 7nm 制程工艺芯粒 Chiplet)技术,通过封装多颗 AI 计算芯粒(MLU-Die增强计算性能同时,寒武纪 为 MLU370 配备了 Cambricon Neuware 软件栈推理加速引擎 MagicMind助力开发 提升部署效率目前 MLU370 阿里云客户进行了批量交付通过深耕行业客户, 寒武纪有望推动 MLU370 产品在更多标志性应用场景实现商业化落地,进一步拓展业 务覆盖范围和客户覆盖领域。

华为于 2019 年发布昇腾 910 芯片,此后陆续发布了升级版本昇腾 910B、昇腾 910C, 提升了 NPU 之间交换数据的能力,对网络接口进行了升级昇腾 910 在设计上较为关注低精度的场景FP16 算力达到 256 TFLOPSINT8 算力达到 512 TOPS同时,华为 发布了昇腾 Ascend C 编程语言昇思 MindSpore AI 框架配套软件栈提供系列工 具及套件,支撑模型高效原生开发,构建较为完整的软件生态

海光信息研发的深算二号已实现批量出货,实现 LLaMaGPTBloomChatGLM 生 成式 AI 模型的全面应用,与包括文心一言在内的大模型全面适配沐曦、壁仞、燧原等 厂商也陆续推出了满足推理场景需求的计算芯片部分推理芯片在 INT精度下的计算能 英伟达对应产品较为接近其中部分厂商的推理芯片实现兼容 CUDA 架构,进一 步降低了模型移植成本

我们认为:生成式 AI 的发展是一个不断迭代升级的过程,随着国内生成式 AI 模型的质 量持续提升,有望出现更多优质应用,从而带动推理算力需求快速上升在推理场景下, 力的性价比显得更为重要在供给端有所限制的情况下国产推理芯片有望受益于国 内生成式 AI 应用的落地,迎来重大发展机遇。