AI算力系列报告：推理芯片，生成式 AI 驱动，或迎来重大机遇

天小时分钟秒

距开展时间：

首页 ⊙ 新闻中心 ⊙ 行业动态 ⊙ AI算力系列报告：推理芯片，生成式 AI 驱动，或迎来重大机遇

参展申请

观众预登记

同期活动

AI算力系列报告：推理芯片，生成式 AI 驱动，或迎来重大机遇

来源:幻影视界库 | 作者:幻影视界库 | 发布时间: 2024-05-12 | 724 次浏览 | 分享到:

一、生成式AI推理需求旺盛，量化技术升级降低推理门槛

1.1 生成式AI模型持续迭代，推理需求旺盛

生成式 AI 模型性能不断提升，或处于更大规模放量前夕，推理需求有望高速增长。 OpenAI 于 2022 年 11 月推出生成式 AI 应用 ChatGPT，在不到两个月的时间内，月活跃用户数突破 1 亿人。以 ChatGPT 为代表的生成式 AI 应用快速迭代、落地，模型推理的算力需求逐渐显现。随着生成式 AI 模型参数和 Token 数量不断增加，模型单次推理所需的算力持续攀升。同时，ChatGPT、Gemini、Kimi 等聊天机器人的用户数逐步上升， Microsoft Copilot、Adobe Firefly、WPS AI 等办公助手持续落地，用户侧的流量不断上升，推理算力需求有望高速增长。

推理算力未来有望超过训练算力，最终训练芯片与推理芯片数量之比或达到 2：8。目前生成式 AI 模型仍处于快速迭代，各厂商相互追赶的阶段，随着模型性能的逐步稳定和应用的陆续落地，算力的推理需求有望超过训练需求。而推理需求与训练需求在计算量、精度要求以及部署位置上存在差异。一方面，训练需求的精度要求较推理需求更高，因此训练芯片也就要求有更高的精度范围，在高精度场景下同样需要具备较强的性能。另一方面，训练芯片主要部署在数据中心（云侧），推理芯片则会兼顾云侧与边缘侧的算力需求。根据施耐德电气的测算，到 2028 年人工智能的推理负载有望占比达到 85%。我们认为：考虑到云侧和边缘侧巨大的推理需求，训练芯片与推理芯片数量之比或将达到 2：8。

1.2 量化技术有助于降低推理的算力门槛

量化技术（Quantization）是决定生成式 AI 推理成本的关键因素，量化技术的迭代升级有望降低推理门槛。深度神经网络模型存在参数冗余的问题，所有参数均使用 32 位浮点型数值（FP32），但神经网络模型实际使用的精度远不到 FP32 所表示的范围。如果针对低位宽的数值计算进行优化，使用低数值进行大规模矩阵运算，模型推理过程会有明显的加速效果。

模型量化指的是通过降低网络模型参数数值表示所需的位宽，在不影响模型任务性能情况下达到降低精度和内存容量的效果。假设将一个参数全部是 FP32 的神经网络的权值和激活值全部量化到 16 位整型数值（INT16）或 8 位整型数值（INT8），其内存占用和精度理论上均可减少至原先的四分之一，如果部署的处理器低精度运算较快，则能够有效加速推理过程。目前 INT8 量化技术已比较成熟，Google 的 TensorFlow、英伟达的 TensorRT、Meta 的 PyTorch 等模型部署框架均已支持 INT8 量化技术。

量化技术快速发展，为 CPU+ASIC、CPU+FPGA 等技术路线的发展，以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的 FP16 量化快速发展到目前应用最成熟的 INT8 量化，再到正在进一步研究中的 INT4 量化，呈现出数据精度逐步降低，内存或显存占用不断减少的趋势。这一趋势有助于 CPU+ASIC、CPU+FPGA 等技术路线通过软硬件的优化提高推理能力，也有助于国产算力通过增加低精度计算单元等方式，以较成熟的制程工艺实现可用的推理算力。

二、推理芯片多种技术路线齐头并进，推动生成式AI落地

2.1 英伟达、AMD长期关注GPU的推理算力

英伟达和 AMD 的数据中心 GPU 产品，在关注训练场景的同时，也始终关注推理场景的技术革新。2022 年以来，英伟达先后推出了 Hopper、Blackwell 两代 GPU 架构，较此前的 Ampere 架构增强了 FP8 甚至是 FP4 精度下的吞吐量，能够更高效地完成生成式 AI 模型的推理任务。AMD 新推出的 MI300X 也较 H100 提升了 FP8 精度下的计算能力。以英伟达和 AMD 为代表的数据中心 GPU 厂商的技术发展趋势，进一步表明量化技术的迭代发展对模型推理算力需求有重要的影响。

另一方面，英伟达和 AMD 的消费级 GPU 产品，同样具备接近千亿参数量级的生成式 AI 模型的推理能力，从侧面说明推理芯片的门槛相对较低。根据公开资料，Llama-2 7B 和 13B 模型能够成功部署在 8 卡英伟达 RTX 3090 服务器上，Llama-2 70B 则能够在 8 卡英伟达 RTX 4090 服务器上进行部署。尽管在推理性能上有一定的损失，但消费级 GPU 仍有完成接近千亿参数量级的生成式 AI 模型的能力

2.2 海外CSP自研芯片，或将另辟蹊径

谷歌、微软、亚马逊、Meta 等海外 CSP 企业在大规模采购英伟达数据中心 GPU 的同时，也在积极自研用于模型训练和推理的芯片，有望成为满足推理算力需求的另一种途径。与英伟达和 AMD 的数据中心 GPU 类似，海外 CSP 自研芯片同样关注算力集群的规模化和扩展性。同时，由于面向 AI 场景的算力芯片与算法间存在紧密联系，海外 CSP 重视算法与算力芯片间的协同设计，通过支持新一代量化技术的数据精度、部署模型关键算法的直接专用加速器等方法，进一步提高推理性能。

谷歌于 2023 年先后发布了 TPU（Tensor Processing Unit） v5e 和 TPU v5p 两款 ASIC 芯片，重点提升了训练速度和推理的性价比，并对 PyTorch、TensorFlow 等先进框架进行了集成。TPU v5e 和 TPU v5p 相较于 TPU v4，在训练速度上都有接近 2 倍左右的提升，单位美元的推理性能也都提升 2 倍以上。以 TPU v5p 为例，每个 Pod 由 8960 块芯片组成，芯片间以 4800 Gbps 的传输速率进行互连。Gemini 1.0 在训练时即使用 TPU v4 和 TPU v5e。我们认为：随着 TPU 性价比的进一步提升，有望在推理芯片市场扩大份额，加速生成式 AI 模型的落地进程。

微软、亚马逊、Meta 同样发力自研芯片，为生成式 AI 的训练和推理提供更多的算力选择。微软于 2023 年 11 月推出 Azure Maia 100，目前正在通过搜索引擎 Bing 和 Office AI 系列产品进行测试。Azure Maia 100 采用台积电 5nm 工艺，拥有 1050 亿颗晶体管，能够支持低于 8 位数据类型。亚马逊于 2023 年 12 月推出了 Amazon Graviton4 和 Amazon Trainium2 两款自研芯片，根据亚马逊云科技的测算，Graviton4 与目前正在使用的 Graviton3 处理器相比，性能提升 30%，独立核心增加 50%以上，内存带宽提升 75% 以上。Meta 也有望推新款自研推理芯片 Artemis，或于 2024 年内完成 Artemis 在 Meta 自有数据中心的部署。我们认为：海外 CSP 企业自研 ASIC 芯片的尝试，也从侧面说明面对生成式 AI 巨大的训练和推理需求，海外 CSP 企业也期望另辟蹊径，探索更具有性价比和计算效率的算力解决方案，从而为多种技术路线的发展创造了可能性。

2.3 国产推理芯片市场潜力大，有望迎来重大机遇

国产推理芯片快速发展，已在推理和部分训练场景下落地，未来有望迎来重大发展机遇。以 Kimi 和 WPS AI 为代表的 C 端和 B 端应用陆续落地，国内的推理算力需求正在快速上升。衡量算力大小的维度不仅包括集群峰值算力的大小，也要考虑到算力在实际部署中的使用效率和优化程度。实际可使用的算力是工程化的结果，涉及从芯片到开发工具包的多个层次，对算力提供者的工程能力及案例经验都有要求。国产推理芯片在多个场景下的部署，有助于国产算力厂商迭代优化自身产品，根据实际需求优化芯片设计及对应的开发工具包，加速形成软硬件一体的开发生态。

以运营商和国内互联网厂商为代表的需求端正在加速建设 AI 算力，有望推动国内推理芯片市场快速放量。2023 年以来，通信运营商已集中采购超 1.5 万台 AI 服务器，采购项目体现了运营商对智算中心建设的重视，同时也反映了国内推理和训练算力已加速部署。在新建成的 AI 算力基础设施中，国产 AI 芯片的使用率较高，中国移动智算中心（呼和浩特）部署的 AI 加速卡国产化率超 85%，中国联通则基于华为昇腾 AI 基础软硬件在北京建立了的全国产化的智算中心。2023 年，百度订购了 200 台 8 卡服务器，搭配 1600 块昇腾 910B。

运营商和国内互联网厂商的持续部署，有助于支撑生成式 AI 应用在国内落地，从而在实际运用中不断对推理芯片的性能迭代升级。寒武纪面向模型训练和推理场景推出了 MLU370，MLU370 采用 7nm 制程工艺及芯粒（Chiplet）技术，通过封装多颗 AI 计算芯粒（MLU-Die）增强计算性能。同时，寒武纪为 MLU370 配备了 Cambricon Neuware 软件栈和推理加速引擎 MagicMind，助力开发者提升部署效率。目前 MLU370 已向阿里云等客户进行了批量交付。通过深耕行业客户，寒武纪有望推动 MLU370 等产品在更多标志性应用场景实现商业化落地，进一步拓展业务覆盖范围和客户覆盖领域。

华为于 2019 年发布昇腾 910 芯片，此后陆续发布了升级版本昇腾 910B、昇腾 910C，提升了 NPU 之间交换数据的能力，对网络接口进行了升级。昇腾 910 在设计上较为关注低精度的场景，FP16 算力达到 256 TFLOPS，INT8 算力达到 512 TOPS。同时，华为还发布了昇腾 Ascend C 编程语言、昇思 MindSpore AI 框架等配套软件栈，提供系列工具及套件，支撑模型高效原生开发，构建较为完整的软件生态。

海光信息研发的深算二号已实现批量出货，实现 LLaMa、GPT、Bloom、ChatGLM 等生成式 AI 模型的全面应用，与包括文心一言在内的大模型全面适配。沐曦、壁仞、燧原等厂商也陆续推出了满足推理场景需求的计算芯片，部分推理芯片在 INT8 精度下的计算能力与英伟达对应产品较为接近。其中，部分厂商的推理芯片实现兼容 CUDA 架构，进一步降低了模型移植成本