小时 分钟
距开展时间:
参展申请
观众预登记
华为AI全栈生态布局:中国科技巨头加速创新
来源: IT互联人生 | 作者: IT互联人生 | 发布时间: 2024-05-12 | 73 次浏览 | 分享到:

华为AI芯片生态全栈深度分析 2024

一、引言

1.1 华为AI芯片发展背景:

华为,通信和消费电子巨头,以其技术创新和远见著称。2013年,华为率先布局人工智能(AI),并专注于全栈AI解决方案的开发。华为的AI战略涵盖了软件算法、平台服务,以及至关重要的AI芯片研发和产业化。通过打造端到端的AI解决方案,华为旨在满足未来数字化社会对智能计算能力的巨大需求。

自2017年进军AI芯片领域,华为持续研发的昇腾系列芯片已成为全球AI芯片竞赛的重要力量。
基于自主达芬奇架构,昇腾系列具备高算力和能效,覆盖云端训练至边缘推理的全场景应用。华为持续迭代升级,打造从基础芯片到应用使能的完整AI生态。

华为AI芯片战略:
构建全面自主可控的AI基础设施,从高性能处理器到算法库和应用框架,打造AI生态体系。
华为AI芯片赋能:
不仅服务自身设备、服务器和云服务,还通过开放平台战略,助力合作伙伴加速AI应用开发和部署,推动AI产业蓬勃发展。

1.2 本文研究目的与意义:

揭秘华为 AI 芯片全栈优势:
华为 AI 芯片以其高算力、低能耗、易编程、广兼容等优势在市场中脱颖而出。其核心技术包括:
* 创新芯片架构设计理念
* 算力强劲的计算单元、高效的内存管理、先进的互连技术
* 涵盖编译器、运行时、开发框架、模型库的全栈软件
* 优化软硬件协同的机制
这些技术优势的深度分析将揭示华为如何通过创新技术实现关键性能指标,在竞争激烈的市场中占据领先地位。

评估华为 AI 芯片市场竞争力
全栈分析评估华为 AI 芯片的竞争力,包括:
* 应用场景适用性:数据中心、边缘计算、物联网终端
* 性能、成本效益、用户口碑
* 与竞争对手 (NVIDIA、Google、Intel) 的对比
* 生态系统建设、合作伙伴关系、客户服务
这些维度全面评估华为 AI 芯片在市场中的地位,识别其优势和劣势,为制定竞争策略提供依据。

剖析华为AI芯片战略与突破
深入分析华为AI芯片发展轨迹,揭示其战略、技术、市场趋势。
解锁应对行业挑战的创新应对之策,包括摩尔定律困境、能效瓶颈、数据安全。
这些洞察指引行业参与者、投资者和决策者把握华为AI芯片布局,预见技术突破和生态构建的未来蓝图。

二、华为AI芯片产品线概览

2.1 现有产品梳理:

昇腾系列AI芯片

华为昇腾系列AI芯片:为各应用场景赋能
- 云、边、端全覆盖,满足不同计算需求
- 助力智能化转型,解锁无限可能

  1. 昇腾910(Ascend 910)

    • 发布时间:2018年10月首次发布,后续有更新版本推出。

    • 昇腾910:华为旗舰级AI芯片,采用达芬奇架构,单芯片计算密度全球第一。拥有超大规模计算核心、高带宽内存接口和高效片上互联。其强大的算力远超同代竞品,可高效训练大规模深度学习模型。凭借其卓越性能,昇腾910成为业界领先的AI训练芯片。

    • 适用于数据中心、云端环境的AI模型训练,满足图像识别、语音识别、自然语言处理等复杂AI任务的高性能计算需求。科研机构、大型互联网公司和企业级客户的理想选择。

  2. 昇腾310(Ascend 310)

    • 发布时间:2018年10月与昇腾910一同发布,后续也有迭代更新。

    • 昇腾310:边缘计算的赋能者
      基于达芬奇架构的昇腾310芯片,为边缘计算和轻量级服务器提供出色能效比和实时推理能力。
      支持多种精度计算,在低功耗下高效完成AI推理任务。适用于嵌入式设备、智能摄像头、自动驾驶等边缘设备。

    • 赋能各界智能化,驱动实时视频分析、物体检测、语音唤醒、自然语言交互等,助推智慧城市、智慧交通、智能制造、智能家居、移动终端等领域创新应用。

  3. 昇腾其他型号 昇腾Mini系列专为边缘和端侧设备量身打造,显著降低功耗和体积,仅为1/20传统芯片,

2.2 技术路线与演进:

华为坚持自主研发的AI芯片技术路线,基于创新的达芬奇架构,不断演进芯片性能。通过迭代优化,持续提升算力、能效比和适用性,满足多样化场景需求。

架构设计创新:

  • 华为独创达芬奇架构赋能昇腾AI芯片,其3D Cube立体计算引擎融合计算、存储和通讯资源,深度调度处理数据流。该架构专为深度神经网络并行计算而生,大幅减少数据传输开销,提升计算效率。

算力提升策略:

  • 华为持续升级芯片,不断提升单片 AI 计算核心的数量(达芬奇核或 CANN 核),优化结构(改进运算单元设计,增强并行能力)。这些举措显著提升了理论峰值算力。

  • 高速连接与内存优化,突破计算瓶颈。先进总线技术提升数据交换效率,内存带宽扩容优化内存层次。数据访问延迟大幅降低,实际应用算力显著增强。

能效优化手段:

  • 华为的精湛功耗管理技术,包括动态电压频率调整 (DVFS) 和任务调度优化,巧妙地平衡了性能和功耗。在满足性能要求的前提下,最大限度降低芯片耗能,实现高效节能。

  • 多级精度计算:提供 INT8、INT16、FP16、FP32 等多种精度选项,助力用户根据任务需求灵活选择,在性能和功耗之间取得平衡。低精度可大幅节省能源,同时保持高准确度,为推理任务带来显著收益。

三、华为AI芯片核心技术解析

3.1 架构设计:

华为昇腾AI芯片的Da Vinci架构以其卓越的设计脱颖而出,提供:
- 强大的并行计算能力
- 异构计算优势
- 模型加速优化
这一开创性架构为人工智能应用带来了显著的性能提升。

Da Vinci 架构的创革命性“3D Cube”计算引擎将计算单元组织成三维网格,实现了高度并行的计算阵列。这种设计缩短了数据传输距离,显著提高效率。每个计算单元支持向量计算,可高效处理卷积、矩阵乘法等并行神经网络操作。

异构计算架构融合多种计算单元,每种单元针对特定任务优化:
* 标量处理器:处理复杂逻辑
* 向量处理器:执行密集数学计算
* 张量处理器:高效矩阵运算
这种异构设计使芯片可同时处理不同类型任务,满足深度学习模型多样化的计算需求,同时优化资源利用率。

Da Vinci架构针对深度学习模型量身打造,大幅提升模型执行速度:
- 张量计算单元 (TPU):专为矩阵乘法和卷积运算优化,高效处理神经网络计算。
- 硬件加速器:激活器和归一化器等加速器加速关键操作。
- 高效缓存和内存管理:无缝数据流动,消除访问瓶颈。

Ascend Core是华为AI芯片的关键硬件,为AI计算提供基础支持。它采用达芬奇核心或类似专用AI计算核心,具备强大并行计算、异构计算和模型加速能力。支持INT8/INT16/FP16等多种精度计算,可在低功耗下提供高吞吐量的推理性能,高效处理深度学习任务。

3.2 软件栈与工具链:

华为提供的编译器针对昇腾芯片优化,如 Ascend Compiler,可将 AI 模型代码转换为高效机器码。该编译器利用算子融合、指令优化和内存优化技术,确保模型在昇腾芯片上高效执行。


华为提供的 Ascend Runtime 运行时环境为 AI 芯片提供全面管理,包括内存分配、任务调度和硬件加速调用。优化后的驱动程序和中间层服务无缝连接硬件和上层应用,保证稳定且高性能的服务,满足 AI 应用的高效运行需求。

华为自研深度学习框架MindSpore
优化昇腾芯片性能,支持自动并行、微分和混合精度,大幅简化模型开发与部署。
提供丰富的API、预训练模型和文档指导,助力开发者高效构建和训练AI模型,加速人工智能落地应用。

华为模型库:
• 丰富预训练模型:覆盖计算机视觉、自然语言处理、语音识别等领域。
• 优化适配昇腾芯片:高效运行,节省开发时间和资源。
• 开箱即用:提供丰富的预训练模型,加速模型开发和应用。

华为昇腾软件栈和工具链大幅降低开发者使用昇腾芯片的门槛,助力AI应用开发和部署。开放的软件生态汇聚开发者和合作伙伴,共建AI应用生态,提升华为昇腾芯片的市场竞争力。

3.3 算法优化与模型压缩:

华为创新 AI 算法,为昇腾芯片优化推理和训练效率,大幅减少模型存储和计算资源需求,助您释放数据价值。

华为模型量化:极致优化
华为提供低至 INT8 的模型量化,将浮点模型转换至整数模型,显著缩减模型体积和计算难度。结合昇腾芯片对低精度计算的出色支持,确保精度损失极小。

模型剪枝:华为创新技术,优化推理效率
华为革新性地将模型剪枝集成到框架和工具链中。通过精细分析模型权重,该技术能识别并移除对输出影响微小的连接或通道,大幅精简模型结构。这一创新举措显著降低计算量和内存占用,从而大幅提高推理速度,为企业赋能高效执行人工智能任务。

华为知识蒸馏技术赋能小模型,让其具备大模型的精度,同时大幅缩小模型尺寸,提升推理速度。此技术尤其适用于边缘设备,因其资源有限,对模型大小和速度要求较高。

华为软件栈深度优化,与昇腾芯片协同无间:
* MindSpore框架:自动识别模型结构,融合算子,并行化调度,高效执行模型。
* 编译器:生成针对昇腾芯片的优化指令集,减少数据搬运和冗余计算。
* 运行时环境:精细管理资源和调度任务,充分利用硬件资源。

华为 AI 芯片凭借先进算法优化、模型压缩技术,辅以软硬件协同,大幅提升推理和训练效率,降低资源需求。其卓越性能可满足云端至边缘的多场景应用,展现强大的技术实力和生态整合能力。

四、华为AI芯片性能评估与应用案例

4.1 性能基准测试:

华为昇腾AI芯片在国际权威基准测试中表现卓越。在MLPerf和AIBench等平台验证下,其性能优异,与竞品相比优势显著。

算力:在MLPerf等测试中,华为AI芯片展示了强大的单芯片及集群算力。以最新的昇腾芯片为例,其在图像分类、语音识别、自然语言理解等任务上取得了优异成绩,单位时间内能处理的样本数量远超行业平均水平。与竞品相比,如英伟达的高端GPU,尽管在绝对性能上可能存在差距(如英伟达新发布的GPU性能可达华为AI芯片的14倍),但华为AI芯片在特定AI工作负载上展现出高度优化的性能,尤其是在大规模并行计算和张量处理方面,能有效应对深度学习模型的高强度计算需求。

华为AI芯片凭借先进的制程工艺、低功耗架构和动态电源管理,在MLPerf能效测试中脱颖而出。它在相同AI任务下消耗更低功率,尤其是在数据中心和边缘计算领域,能显著降低运营成本和碳排放。

华为AI芯片融合性卓越,支持TensorFlow、PyTorch等热门编程模型和框架,助您轻松迁移现有模型,节约时间和成本。开放生态系统提供丰富的SDK、API和工具,确保与各类AI应用环境无缝集成,包括公有云、私有云和边缘计算节点。AIBench测试验证了其卓越的兼容性,证明了其在多场景部署中的灵活性和通用性。

华为AI芯片在实际AI应用中优势明显:
* 针对性优化和软件支持,展现卓越算力、能效和兼容性。
* 大规模AI部署和长期运营成本优势,为用户提供极具吸引力的选择。

4.2 应用场景案例分析:

华为AI芯片为智慧城市赋能
搭载华为AI芯片的智能摄像头,依托其强大的计算能力,可实时处理海量视频流,精准识别行人和车辆,助力城市精细化管理。
芯片的高能效特性确保边缘设备低功耗运行,内置视觉预处理模块优化数据处理,降低带宽需求。
智能分析结果汇聚至华为云,实现大数据分析和决策支持,构建智慧城市的神经网络。

华为AI芯片作为自动驾驶汽车的计算平台,为车辆提供强大的并行计算能力和深度学习模型高效支持。它能快速处理传感器数据,生成高精度的周围环境模型,确保车辆的安全行驶。
华为还提供开放的自动驾驶软件平台,吸引合作伙伴共同开发解决方案,推动行业创新。该平台助力自动驾驶系统实现环境感知、路径规划和决策控制等关键任务,推动自动驾驶技术的发展。

华为云的昇腾AI芯片赋能大规模AI训练和推理。华为云提供AI开发平台和模型市场,助力用户利用昇腾算力缩短研发周期。通过集群化部署,华为云提供分布式训练服务,满足企业级用户需求。同时,昇腾芯片的高能效特性打造绿色节能的AI云服务,响应可持续发展号召。

华为AI赋能边缘智能
华为AI芯片为工业物联网、远程医疗和零售分析等边缘计算场景下的边缘设备提供支持,实现实时数据分析和决策。
例如,在智能制造中,搭载昇腾芯片的边缘服务器可在本地处理传感器数据,实时监测设备状态、预测故障,优化生产参数,提高产出。边缘计算避免了数据上传云端的耗时,确保了数据隐私,降低了网络延迟,提升了响应速度。

五、华为AI芯片生态构建与合作伙伴关系

5.1 开发者生态:

华为以一系列举措培育 AI 芯片开发者生态,为开发者提供全方位支持。这推动了 AI 技术的创新应用和行业生态蓬勃发展。

华为 AI 社区支持
华为打造了活跃的开发者社区,包括开发者联盟和 MindSpore 社区,连接开发者、提供技术支持和分享最佳实践。
* 定期举办研讨会、讲座和活动,促进知识共享和协作创新。
* 提供丰富的技术文档、代码示例和最佳实践,帮助开发者快速入门。
* 通过论坛、博客和技术文档库提供专业解答和指导。

华为培训资源:
解锁AI芯片技术,释放无限潜能。
定制化培训课程涵盖芯片基础、开发工具、模型优化和解决方案设计,助力开发者掌握前沿技术。
通过在线课程、实训营、研讨会和认证培训,提升技术能力,应对AI芯片应用场景的多样化需求。
华为与高校、研究机构携手,培养未来人才,为AI芯片领域的蓬勃发展注入活力。

华为AI芯片开发者认证体系
华为构建了全面的AI芯片开发者认证体系,帮助开发者提升技术能力并获得职业认可。华为认证人工智能工程师(HCIA-AI)和华为认证人工智能高级工程师(HCIP-AI)等认证为开发者提供权威资质,提升其在就业市场上的竞争力。
此外,认证体系为华为和合作伙伴提供了筛选专业AI芯片开发人才的标准依据,确保拥有必要的技术技能和实践经验。通过系统掌握华为AI芯片相关技术,开发者能够提升其就业能力并为行业发展做出贡献。

华为的上述举措对吸引和培育开发者群体产生了显著影响:

  • 降低门槛,释放潜能:丰富的开发资源让更多初学者和跨界开发者轻松踏入AI芯片开发领域,扩大了华为AI芯片开发者社区。

  • 增强开发者能力,提升华为AI芯片价值
    华为提供专业的培训课程和认证体系,帮助开发者快速提升技能,满足复杂AI应用开发需求。优化开发者能力有效提升了华为AI芯片在实际项目中的应用效果。

  • 华为通过持续的技术支持和优质服务,打造与开发者的紧密连接,强化开发者对 AI 芯片的品牌忠诚度,促成稳定且忠诚的开发者社区,有利于华为构建 AI 生态系统。

5.2 合作伙伴网络:

华为在AI芯片生态圈打造上拥有深入的战略合作网络,携手多方伙伴,共同推动AI创新。
合作伙伴包括:
* 软硬件供应商
* ISV(独立软件开发商)
* 系统集成商
* 科研机构
* 行业用户
通过合作,华为打造了全面的AI芯片生态,赋能各行业数智化转型。

华为与多家硬件厂商合作,联合打造基于其AI芯片的定制硬件解决方案。此举提升了系统性能和效率,使其更易融入不同行业的IT基础设施。该合作拓展了华为AI芯片的市场覆盖范围。

华为携手AI软件平台提供商和算法开发商,构建全面AI生态。深度学习框架和中间件的支持,为开发者提供丰富的开发工具和算法库,提升开发便捷性。华为致力打造完整的AI开发环境,助推AI应用创新,加速产业数字化转型。

华为携手行业ISV和系统集成商,打造AI行业解决方案。这些解决方案充分利用华为AI芯片的强劲算力,并结合合作伙伴在行业领域的专业知识。涵盖金融风控、医疗影像诊断、智能制造等领域,为客户提供定制化的AI应用,赋能各行业数字化转型。

华为携手高校科研机构,打造产学研协同平台。合作项目涵盖前沿技术研发、人才培养和产业转化,助力华为保持技术领先,并为人工智能芯片产业培养高素质人才。

合作成果体现在以下几个方面:

  • 多元化产品生态,赋能行业变革。华为与合作伙伴携手共建产品组合,涵盖硬件、软件、算法及解决方案,满足多样化行业需求。

  • 华为与合作伙伴携手,充分利用其行业认知和客户网络,加速 AI 芯片在垂直行业的渗透。在政府、电信、能源和交通等关键领域,华为 AI 芯片迅速提升市场占有率。

  • 华为与科研机构合作,持续推动AI技术创新,开发新型芯片架构、编译器和大模型训练技术。这使华为在AI芯片领域保持竞争优势,为未来的技术突破奠定了基础。

  • 携手合作伙伴,华为共建生态标准,促进AI芯片产业规范发展。参与制定行业标准和接口规范,提升华为AI芯片业界话语权和影响力。

智慧医疗:

  • 案例名称:华为与某省级医院合作的AI辅助诊断系统

  • 通过华为AI芯片的赋能,该系统高效处理海量医疗影像,实现多种疾病的快速精准诊断,有效缓解医疗资源紧缺。它大大减轻了医生的工作量,提升了诊断效率和准确性。持续的数据收集和模型优化助力系统性能不断提升,为患者提供更高质量的医疗服务。

智能制造

  • 案例名称:华为与某大型制造企业合作的智能质检解决方案

  • 华为携手合作企业,将昇腾AI芯片嵌入质检环节,实现产品质量自动化检测。
    高清摄像头采集的影像实时分析,助力提升生产效率和产品品质。

  • 华为AI芯片赋能智能质检,精准识别缺陷,显著提升质检效率和准确率,有效减少误检和漏检。实时反馈质检结果助力生产流程优化,提升生产效率和产品质量。华为携手企业共同部署和运维,保障系统稳定运行和持续升级。

自动驾驶

  • 案例名称:华为与某汽车制造商合作的自动驾驶平台

  • 华为与汽车制造商强强联合,将昇腾AI芯片植入自动驾驶系统。此芯片处理海量传感器数据,实现环境感知、路径规划和决策控制,赋能车辆自主驾驶。

  • 华为AI芯片赋能自动驾驶平台,实现L4级自动驾驶,大幅提升行车安全和舒适性。凭借高算力和低延迟,华为芯片确保系统实时响应和精准决策。华为与汽车制造商共享数据,持续优化算法模型,提升系统性能和用户体验。

六、华为AI芯片面临的挑战与应对策略

6.1 技术挑战:

华为AI芯片:先进制程挑战与应对
受制于国际限制,华为AI芯片面临先进制程技术获取瓶颈。这可能会影响其芯片的晶体管密度、性能和能耗效率。
华为正在应对这一挑战,包括:
* 积极研发自有制程技术
* 探索与第三方代工厂合作
* 通过布局材料、设计和工艺创新,提升芯片性能

  • 自主研发与合作创新构筑坚实根基。华为持续加大研发投入,探索自主芯片制造技术。通过与产业链上下游合作,推进本土先进制程技术的研发和产业化,赋能国产芯片制造能力。

  • 优化芯片设计:
    提升性能和能效,缩小与先进制程芯片的性能差距。通过架构创新、电路设计优化、封装技术改进等手段,充分利用现有制程优势,实现芯片性能与能效飞跃。

  • 采取多元化供应链策略可分散风险、增强韧性。培养替代供应商可确保芯片制造能力,即使在供应受限的情况下也能维持运营。


AI应用向低功耗设备扩展,提出了功耗控制的新挑战。如何在保证性能的同时有效降低芯片功耗成为关键。

  • 突破性能效比设计,通过芯片创新、电路优化和电源管理,在提供强劲 AI 算力的同时,实现低功耗运行,提升总体效率。

  • 借助动态功耗管理技术,我们打造了先进的 DVFS 和任务调度算法。这些算法可动态调整芯片的电压和频率,以及优化任务分配,从而减少不必要的能耗。

华为的应对策略包括:

  • 软硬件协同优化:从算法到硬件,全栈功耗优化,通过整合编译器、运行时、框架等软件栈,与硬件设计深度融合,显著降低功耗。

  • 边缘 AI 神器:模型压缩与加速技术,让 AI 模型更小、推理更快,无损精度,满足边缘设备资源受限需求。

华为的应对策略包括:

  • 构建开放创新生态圈,以 MindSpore 开源框架为基础,融合模型库和开发者社区。激发开发者参与算法创新,促进算法与硬件的融合,推动技术突破。

6.2 市场与政策环境:

全球半导体供应链震荡,原材料紧缺、价格飙升、交期延宕,影响华为 AI 芯片生产供给链。华为採取应对策略:

  • 供应链多元化:积极寻求替代供应商,减少对单一地区或供应商的依赖,提高供应链韧性。

  • 本土化战略:加强与本土产业链的合作,推动国产化替代,降低对外部市场的依赖。

制定行业标准是华为巩固市场地位和增强竞争力的关键战略。通过参与全球 AI 芯片标准制定,华为积极塑造行业格局,确保产品符合最新标准,并推动自身技术创新。

  • 推动互操作性,构建开放AI生态:
    倡导开放标准,促进不同AI芯片的无缝互通,释放巨大的协同效应,打造更具包容性和创新性的AI未来。

七、华为AI芯片未来展望

7.1 技术趋势预测:

  • 华为探索神经拟态计算,模拟人脑神经网络特性,实现高效能比(高于每瓦 10 倍),增强实时学习能力(可学习 256 种动作)。

  • 华为的存内计算架构巧妙地将计算单元与存储单元紧密融合,大幅减少数据传输开销。这不仅提升了计算效率,还解决了人工智能领域中的数据搬运瓶颈,带来卓越的性能表现。

异构计算融合:
随着 AI 价值日益凸显,华为融合不同计算单元(CPU、GPU、TPU、FPGA 等),实现灵活高效的资源调度,释放异构计算潜力。

  • 华为打造灵活异构平台,赋能 AI 算力随需而变。动态配置和协作多种计算单元,精准匹配不同 AI 任务需求。

  • AI 编译器和运行时引擎协同优化,提升 AI 工作负载效率。通过自动识别和优化,最大化硬件性能,加速 AI 模型训练和推理。

华为以其强大的 AI 芯片技术在市场中占据领先地位,并不断调整策略以扩大其影响力。通过拓展目标客户群体,探索新领域,华为旨在巩固其市场地位。

华为重塑市场定位,确立AI芯片高端领军地位,专注于高性能计算、数据中心和企业AI解决方案,强化其技术领先优势。

拓展目标受众,华为将专注于智慧城市、智能制造等广泛行业,提供定制化AI芯片解决方案。同时,深化中小企业合作,通过云服务提供普惠AI能力。

华为布局AI新领域,开发适用于边缘计算、物联网和元宇宙等场景的轻量化AI芯片。同时提供配套的软件和服务生态,助力企业解锁数字化转型机遇。

八、结论

华为AI芯片:卓越性能,强大生态
华为AI芯片凭借Da Vinci架构、全栈软件支持和深度算法优化,在基准测试中表现出色,展现卓越竞争力。其完善的开发者生态和深厚合作伙伴关系,推动其在智慧医疗、自动驾驶和云计算等领域的广泛应用。
为应对挑战,华为持续加强自主研发,多元化供应链,并积极参与标准制定。这些策略彰显了华为适应市场变化、应对风险的能力,使其AI芯片在竞争激烈的市场中保持领先地位。

华为将持续攻关 AI 芯片前沿技术,包括新架构探索、异构计算融合、软件定义硬件等。市场策略聚焦高端,拓展行业客户,布局新兴领域,巩固并提升全球 AI 芯片市场领先地位。尽管面临挑战,华为在 AI 芯片领域的创新和影响力不容小觑,有望成为全球 AI 产业发展的关键参与者。

以下是具体产品生态分析:

1 昇腾 910 与 310 基础芯片族,自下而上搭建庞大生态体系

1.1 昇腾 910AI 训练处理器+昇腾 310AI 推理处理器

华为从 2004 年开始投资研发第一颗嵌入式处理芯片,历经 15 年,投入超过 2 万名工程师,形成了以“鲲鹏+昇腾”为核心的基础芯片族。此外,还有较为边缘的 SSD控制芯片、智能网卡芯片、智能管理芯片等产品。为适应 AI 运算的高性能要求,一般认为基础硬件具备至少 64 核、8 个内存通道、PCIe 4.0、多合一 SoC、xPU 高速互联、100GE 高速 I/O 等六个特征。而支持 64 个核心的鲲鹏 920 及芯片组能够满足以上要求。

图表 1 以“鲲鹏+昇腾”为核心的基础芯片族

昇腾310处理器,基于达芬奇架构,集成了CPU、AI核和数字视觉处理单元。AI核采用达芬奇架构,是算力担当,提供优异的推理性能。

AI Core 的创新架构和电路设计带来惊人的高性能计算能力和高效能。其低功耗特性非常适用于神经网络的复杂计算,满足深度学习应用的需求。

搭载强大算力的海思芯片,提供:
* FP16 浮点数算力高达 8TOPS
* INT8 整型数算力高达 16TOPS
* 采用先进的 12nm 工艺制造,兼顾性能和能效

昇腾910,高能效AI训练处理器,性能媲美 NVIDIA A100(40GB)。FP16算力高达320 TFLOPS,INT8算力达640 TOPS。采用7nm工艺,功耗仅310W,能效卓越。

昇腾 910 采用创新架构,整合 HCCS、PCIe 4.0 和 RoCE v2 接口。HCCS 是华为自研高速互联技术,与片内 RoCE 搭配,实现节点间高效直连。这种灵活扩展能力,满足横向扩展和纵向扩展系统需求。

昇腾处理器性能对比
昇腾 910 处理器:
* 提供高达 18TOPS 的算力
昇腾 310 处理器:
* 提供高达 9TOPS 的算力

1.2 开发者套件、加速卡、加速模块,完备的硬件生态

基于昇腾芯片族,华为开发了一系列加速卡产品:Atlas 300T 训练卡,基于昇腾 910 AI 芯片,芯片集成 32 个华为达芬奇 AI Core + 16 个 TaiShan 核,能够提供业界领先的 280 TFLOPS FP16 算力,并集成了一枚100GE RoCE v2 网卡,支持 PCIe 4.0 和 1*100G RoCE 高速接口,出口总带宽 56.5 Gb/s,无需外置网卡,训练数据和梯度同步效率提升 10%-70%内存规格方面,包括32GB 的 HBM 和 16GB 的 DDR4。

Atlas 300T 训练卡采用尖端架构,提供卓越性能:
* 无与伦比的 AI 训练速度,每秒可执行高达 300 万亿次操作
* 混合精度支持,使训练更有效率
* 专用内存控制器,最大限度地提高内存带宽
* 针对 AI 算法进行了优化,实现无缝集成和快速部署

Atlas 300T A2,搭载20个AI核、8核CPU以及1*200GE RoCE,提供280 TFLOPS FP16 算力。强化高速接口,支持 PCIe5.0,带来更稳定的性能和更快的传输速度,满足高吞吐量、低延迟AI训练需求。

Atlas 300T A2 训练卡:

Atlas 300I Pro推理卡集成了通用处理器、AI Core和编解码器,为AI推理和目标检索提供强大支持。其LPDDR4X内存高达24GB,总带宽达204.8 GB/s。它具有140 TOPS INT8算力,能效比高达2 TOPS/W,提供卓越的性能和能效。广泛适用于OCR识别、语音分析、搜索推荐和内容审核等AI应用场景。

图表 8 Atlas 300I Pro 推理卡

Atlas 300I Duo推理卡,配备48GB LPDDR4X内存,带宽高达408GB/s,提供280 TOPS INT8算力,相当于两枚昇腾310的组合。此外,其搭载16核*1.9 GHz CPU,计算能力约为单芯片的两倍,支持256路高清视频的实时分析。

Atlas 300I Duo推理卡,配备双NVIDIA® Tensor Core GPU,提供高达60 TOPS的性能,卓越的能效比。其紧凑的主板设计优化了空间利用,适合于边缘计算和云端部署。

Atlas 200I DK A2 开发者套件专为 AI 开发者打造,提供卓越性能。其 4 核 CPU 可实现 8TOPS INT8 计算能力,支持图像和视频分析,适用于教育、机器人和无人机等领域。
以智能小车为例,Atlas 200I DK A2 采用图像处理神经网络,实现图像识别和自动驾驶控制,为打造先进的 AI 解决方案提供强大平台。

Atlas 500 A2智能小站,专为边缘计算而生。它拥有卓越的耐久性、高速计算能力和云边协作能力,可广泛部署于各种复杂环境中,满足交通、小区、园区、商场、超市等场景的应用需求。

Atlas 200I DK A2 主板搭配 Atlas 200I 加速模块,为 AI 应用提供强大性能。

图表 13 Atlas 500 A2 智能小站

1.3 服务器: arm 和 x86 兼容,风冷和液冷并用

华为 Atlas 800 训练服务器,搭载自主研发的鲲鹏 920+昇腾 910 处理器,实现 AI 训练的自主可控。助力深度学习模型开发,提供高效的 AI 训练服务,广泛应用于各行业。

专为各行业打造的服务器,提供高计算能力、能效比和网络带宽。支持单机或整机柜部署,并提供风冷和液冷应用,满足不同场景需求,助力企业机房和数据中心高效运转。

Atlas 800 训练服务器(型号 9010)采用成熟的 X86 架构,搭载华为昇腾 910+Intel V5 Cascade Lake 处理器,为 AI 训练提供强劲算力。

图表 14 Atlas 800(型号 9000)训练服务器水冷拆解图

Atlas 800:强大推理服务器
Atlas 800 推理服务器系列提供卓越的推理性能和视频分析能力。
型号 3000:Atlas 300I/V Pro 专属
* 支持多达 8 个 Atlas 300I/V Pro
* 实时推理和视频分析能力
* 适用于中心侧 AI 推理场景
型号 3010:Intel 处理器支持
* 支持多达 7 个 Atlas 300I/V Pro
* 896 路高清视频实时分析
* 适用于中心侧 AI 推理场景

图表 15 Atlas 800 推理服务器(型号:3000)

Atlas 900 PoD 集群:
配备超 32 颗鲲鹏 920 处理器,提供高达 20.4 PFLOPS FP16 AI 算力。液冷散热系统确保高效散热,最大功耗 46 千瓦。47U 高度,优化空间利用率。

Atlas 900 AI集群整合了数千颗昇腾训练处理器,利用华为领先的通信库和调度平台,无缝连接HCCS、PCIe和RoCE高速接口。这种融合优化设计充分释放了昇腾处理器的卓越性能,提供无与伦比的AI计算能力。

3.2 EFLOPS 超强算力,200G 全节点互联,加速 AI 训练。突破影像、语音、自然语言等 AI 模型瓶颈,推动自动驾驶商用进程。

探索 Atlas 900 尖端的 PoD 基础设施,通过图表 16 了解其示意图,通过图表 17 深入了解其拆解图。揭示如何使用 Atlas 900 优化数据中心部署,提高效率,降低成本。

图表 18 Atlas 900 AI 集群

2 AI 生态并非只有 CUDA,各地算力集群建设快速推进

2.1 AI 算力生态并非只有 CUDA

异构计算架构 (CANN) 是一款媲美 NVIDIA CUDA + CuDNN 的软件层,针对 AI 芯片优化,高效调度和分配计算任务,提升 AI 性能。其核心组件包括引擎、编译器、执行器和算子库。

CANN,基于 AI 框架,之上是 AI 处理器硬件。其先进的异构架构缩短了神经网络执行的硬件交互时间,有效利用硬件性能。

图表 19 Atlas 900 AI 集群

基于 CANN 基础,昇腾推出昇思深度学习框架,提供易开发、高效执行、全场景覆盖的体验。兼容性方面,适配昇腾系列产品、英伟达 NVIDIA 系列产品、Arm 系列的高通骁龙、华为麒麟等芯片。

易用高效,助力全场景AI开发
易开友好:API 简洁,调试便捷
高效执行:计算、预处理、分布式训练速度卓越
全场景覆盖:云、边缘、端侧全面适配

图表 20 昇腾计算产业生态

汇聚多领域大模型,赋能各行各业。
从多模态到医学,从空天信息化到遥感和中文自然语言,提供全面的大模型支持。
覆盖「紫东.太初」、「武汉.Luojia」、「鹏程.盘古」、「鹏程.神农」、「空天·灵眸」等业界领先模型。

"鹏程·盘古",业界首个千亿级中文大模型,赋能丰富应用:
- 知识问答
- 知识检索
- 知识推理
- 阅读理解

鹏城云脑Ⅱ赋能超大模型突破,实现业界首个2000亿参数中文生成模型。基于鹏城云脑Ⅱ和MindSpore框架,该模型首次在2048卡算力集群上采用自动混合并行模式进行大规模分布式训练,开创了超大模型训练的里程碑式进展。

鹏程·盘古α,领先的预训练语言模型,展现卓越文本生成能力,涵盖知识问答、检索、推理和阅读理解。其强大的小样本学习能力,赋予其处理复杂文本任务的非凡优势。

华为全栈AI解决方案
由MindSpore、CANN、昇腾910、ModelArts打造的国产协同生态
为AI应用提供全流程赋能

图表 21 MindSpore 超大规模自动并行

2.2 智算中心建设快速推进,全国算力网络正在形成

武汉人工智能计算中心基于昇腾AI基础软硬件打造,于2021年5月投入运营,算力资源即刻满载。2022年2月扩容后,总算力达200P,再次实现饱和运营。

西安未来人工智能计算中心于 5 月启动,历时 4 个月建设,于 9 月上线。一期提供 300P AI 算力、8P HPC 算力,为人工智能技术创新与应用提供了强劲动能。

中原人工智能计算中心,基于领先的“黄河鲲鹏+昇腾”技术,为中原地区人工智能产业提供强大的算力支持。项目投资10亿元,已建成100P AI算力,未来将达300P。中心上线以来,已服务超100家企业、高校和科研机构,平均算力使用率达90%,有力推动了区域人工智能产业发展。

南京人工智能计算中心,规划算力达40P,上线即接近饱和,使用率超95%,现已与200余家合作伙伴推出150+人工智能解决方案,规模初具。

成都智算中心,西南最大 AI 计算中心,算力达 300P。
携手 80 余家企业与科研团队,平均算力利用率高达 85% 以上,上线即满负荷运营,汇集了海量算力需求。

杭州人工智能计算中心一期2000平方米,40P算力,二期扩充后达140P。中心采用昇腾AI集群,提供普惠算力,服务政府、企业、科研机构等,于2022年5月20日在杭州滨江上线。

武汉人工智能计算中心
先进的人工智能基础设施,赋能智能城市和产业发展。
西安人工智能计算中心
全国领先的超级计算集群之一,助力人工智能领域创新和应用。

中原和南京人工智能计算中心
中原人工智能计算中心和南京人工智能计算中心为人工智能创新提供强大算力支持,加速数据处理和模型训练,推动人工智能在新兴领域的广泛应用。

成都智算中心:
* 中国西南地区领先的智算中心
* 2021 年处理能力达 2.43 EFLOPS
杭州人工智能计算中心:
* 中国首批国家新一代人工智能开放创新平台
* 2022 年处理能力达 1.7 EFLOPS

3 昇腾伙伴网络,五类定位构建产业矩阵

3.1 整机硬件伙伴:传统服务器大厂+新锐硬件加工厂商

昇腾社区定义整机硬件合作伙伴:
* 自有品牌产品
* 二次开发或加工昇腾产品
* 向终端用户销售和提供服务


鲲鹏服务器生态圈汇聚行业巨头,目前分为领先级、优选级和认证级。
宝德、新华三、清华同方等领先企业领衔生态圈,华为长期合作伙伴神州数码也位列其中。华鲲振宇等新锐企业不断涌现,为生态圈注入活力。
部分合作伙伴已实现鲲鹏服务器量产,具备长期定制化生产能力,为市场提供多样化解决方案。

图表 28 昇腾生态伙伴——整机硬件伙伴

昇腾认证标准揭示市场潜力
战略级、领先级、优选级合作伙伴需具备以下市场规模:
* 战略级:≥ 20 亿
* 领先级:≥ 10 亿
* 优选级:≥ 5 亿
此外,每年营销活动次数分别不少于 12、8、6 次,彰显昇腾拓展市场和产品研发的决心。

加入华为不同级别的合作伙伴计划,可享受阶梯式优惠价格和专属权益。高级别合作伙伴更能解锁特惠政策和华为展厅展示的机会。

图表 29 昇腾整机硬件伙伴认证要求

图表 30 昇腾整机硬件伙伴专属权益

图表 31 昇腾整机硬件伙伴通用权益

目前,昇腾整机硬件大致可以分为训练型服务器和推理型服务器两大类。

搭载鲲鹏 920 高性能处理器的宝德 PR420 四路鲲鹏训练服务器,配备 8 张昇腾 910 系列训练加速卡,提供强大的算力。其超高能效,高速网络带宽和 2 个 PCIe 4.0 扩展插槽,确保卓越的训练效率和性能。

高性能服务器,助力大算力行业腾飞:
- 深度学习模型开发与训练
- 智慧城市、智慧医疗
- 天文探索、石油勘探

图表 32 宝德自强训练服务器 PR420KI

推理型服务器 G220K V2,搭载昇腾 310 Atlas300I Pro 推理卡,最大支持 8 张。选用双鲲鹏 920 CPU,以优化能效比和成本。

Atlas 300I Pro 单卡低至 72W 功耗,为 AI 服务器算力加速提供了更出色的能效比。配置 8 张 Atlas 300I Pro 推理卡,整机可同时实时分析 1024 路高清视频(1080P 分辨率,30FPS),以满足高性能需求。

图表 33 长江计算 G220K V2 推理服务器

3.2 IHV 硬件伙伴:边缘计算赋能千行百业

华为 IHVs 专注于边缘计算硬件开发,已在工业控制、数据采集和智能计算等领域广泛应用。作为昇腾合作伙伴,IHVs 可基于昇腾部件开发自己的硬件产品并进行销售。

图表 34 IHV 硬件合作伙伴

凌华科技边缘计算盒子搭载华为昇腾Atlas 200模组和Ascend 310处理器,可处理图像和视频分析。广泛应用于智能制造、安防、交通、机器人和无人机领域。
例如餐饮行业,一台盒子可同时监控多路视频,实时分析图像,识别不规范行为并自动上报,提升运营效率。

图表 35 凌华科技边云协同案例

3.3 应用软件伙伴:电力与智慧城市等场景国产化落地

昇腾应用软件伙伴
昇腾应用软件伙伴致力于开发和销售基于昇腾产品的自有应用,包括软件、垂直细分应用和二次开发能力。
该伙伴生态覆盖智慧城市、智慧交通、电力信息化等领域,助力关键产业硬件国产化。代表企业包括华雁智科、以萨、云天励飞、格灵深瞳、云从科技和智洋创新。

图表 36 应用软件合作伙伴

以萨视频图像全目标结构化解决方案,赋能交通管理等领域。其高效解析能力,将视频数据分析处理能力提升3倍,达到业界领先水平,有效挖掘数据价值,实现多场景实战应用。

图表 37 以萨技术视频图像结构化解决方案

4 昇腾产业链相关企业梳理

4.1 神州数码:华为老牌合作伙伴,AI 服务器产品先行者

神州数码打造行业领先的信创云生态,以首个鲲鹏超算中心为基石,推出契合国内企业需求的鲲泰系列产品。通过适配国产基础软件,神州数码在信创市场屡获项目中标,彰显了其强大的行业竞争力。

依托华为鲲鹏生态,"鲲鹏+鲲泰"开辟国产设备赛道。神州鲲泰服务器搭载鲲鹏处理器,运算能力和能耗均达到国产CPU前列水平,有力解决"卡脖子"技术难题。

神州鲲泰人工智能推理服务器,搭载"鲲鹏+昇腾"核心,提供高达128个处理核心算力。支持最大8张华为Atlas 300推理卡,带来超强推理能力。已成功应用于行业数字化和人工智能数字化解决方案,加速信创产品发展。

图表 38 神州数码旗下昇腾产品目录

提升信创生态,引领行业变革
凭借华为鲲鹏 CPU 的核心优势,神州信创构建了强大生态,为各行业提供定制化应用平台。持续中标国家级重点项目,包括:
* 国家税务总局集中采购入围
* 厦门集美区信创适配运营
* 中国移动人工智能通用计算采购
* 中国移动 PC 服务器采购
随着不断扩大的案例库,神州信创的影响力日益提升,助力信创产业的变革和发展。

图表 39 神州数码旗下昇腾产品目录

股权激励明确业绩前瞻,高增速凸显投资价值。

作为IT分销领域的领军者,我们致力于通过生态合作,为客户提供全面的产品、解决方案和服务,赋能产业数字化转型和数字经济发展。依托行业热点机遇,我们持续聚合厂商和合作伙伴,为客户创造更优质的价值,驱动分销业务稳健增长,推动“数字中国”理想的实现。

神州数码依托云原生基础,构建开源能力,提供全栈云服务。
* 云管理服务(MSP):助力企业上云和云优化
* 数字化解决方案(ISV):赋能企业数字化转型
* 视频云产品及服务:满足企业视频应用需求

神州数码以自主创新和生态聚合为核心,推出神州鲲泰系列信创服务产品,已在政企、金融等多个行业实现突破落地。

图表 40 神州数码分业务营收情况

图表 41 神州数码分业务毛利率

4.2 同方股份:自主可控守门员,昇腾产品覆盖广泛

2022年4月16日,同方计算机与华为签署战略合作,授予同方昇腾整机硬件合作伙伴称号,并授权PBA品牌。双方携手共建昇腾生态,推进AI产业繁荣。

服务器产品覆盖训练和推理场景,采用鲲鹏、飞腾、英特尔 CPU,以 2U 服务器为主。同方还提供了基于鲲鹏的完整产品矩阵,包括个人计算机、存储服务器和通用服务器。

图表 42 同方股份旗下昇腾产品目录

昇腾赋能,赋能智慧城市
同方昇腾合作案例展示了昇腾处理器的强大效能:
* 案例一:海量视频分析,实现99%准确率,大幅提升城市安全保障。
* 案例二:车牌识别优化,速度提升300%,助力交通管理智能化。

4.3 科大讯飞:星火一体机,讯飞星火将与昇腾 AI 强强联合

星火一体机提供私有化大模型部署,保障专属、安全、自主可控。
7月6日,科大讯飞携手华为联合发布星火一体机,基于中国自主创新技术,为企业私有化部署大模型提供更便捷、自主、安全的解决方案。通过星火一体机,企业可自主掌控大模型,助力业务创新。

该设备可提供对话开发、任务编排、插件执行、知识接入、提示工程等 5 种定制优化模式,以及办公、代码、客服、运维、营销、采购等 10 种以上即开即用的丰富场景包,支持 3 种模型尺寸供用户选择。刘庆峰表示,有了这些能力,就可以使得每一家企业、每一个行业、每一所学校、每个医院都有机会构建自己的专属大模型。目前,讯飞星火已完成的在金融、政务、汽车等领域的 9 个专属大模型的数据显示,在场景任务优化和私域知识增强等方面平均效果能够提升 20%。

图表 45 同方股份旗下昇腾产品目录

4.4 润和软件:智能物联领域的昇腾 AI 落地

依托昇思 MindSpore AI框架和华为昇腾强大AI算力,润和危化品存储室智能管控解决方案助力作业智能化,保障人员安全。通过智能化视觉模型,系统实时识别并预警作业违规,对纸质化作业规范进行升级改造,有效预防安全风险,为危化品存储提供智能保障。

润和软件的智能安全管控方案,通过人员检测和装备规范性检查(作业服、呼吸器、氧气面罩),确保安全作业。分析穿戴序列并监管作业时间,有效防范违规作业。在某石化企业部署后,月均违规作业降为 0,有效提升安全管理水平。

图表 46 润和软件智能视觉分析引擎