华为910B GPU训练和推理调研

零、芯片背景

0.1 芯片介绍

Ascend 910B的推出标志着华为在面对全球供应链挑战时，积极寻求本土化解决方案的努力。尽管SMIC的制造工艺与台积电相比仍有差距，但Ascend 910B的成功量产证明了中国半导体产业在高端芯片制造领域的进步。

昇腾Ascend 910B2是华为公司推出的一款高性能AI处理器，属于昇腾系列的一部分。这款处理器专为数据中心的大规模训练任务设计，采用了7纳米工艺制造，旨在满足对算力有极高要求的应用场景。昇腾910B2支持FP16（半精度浮点数）和INT8（8位整数）两种精度的数据类型，这对于平衡计算速度与模型精度至关重要。该处理器具备强大的计算能力，据称其最大功率下的计算性能可达到256 TFLOPS（每秒万亿次浮点运算），而在310W TDP（热设计功耗）时则能提供320 TFLOPS的峰值性能。

原文链接：华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5–基于mindie镜像一路试错版（一）

外媒披露：华为Ascend 910B与台积电版本有何不同？

GPU 进阶笔记（二）：华为昇腾 910B GPU

GPU 进阶笔记（三）：华为 NPU/GPU 演进

910C将成为2025年国产GPU的中坚力量。25年市场预估910C能占到910一半的份额，这样在24年基础上简单粗算下，增量按保守50%，其中一半由更高价值的910C为主，910C服务器按1.5倍910B去计算，25年的昇腾服务器市场出货价值大概至少去到800亿以上的市场价值。

牧之一文 – 昇腾910C 中国AI算力的王座-上

0.2 详细介绍适配高价值文章

吃果冻不吐果冻皮：大模型国产化适配11-LLM训练性能基准测试（昇腾910B3）

https://github.com/liguodongiot/llm-action

大模型国产化适配

Jeff Ding：使用华为昇腾910B体验LMDeploy

0.3 行业实际落地和具体实现高价值观点

1、华为910B芯片，国产AI芯片的希望，有人用过吗？

具体的模型训练方案是torch2.1以上官方版+torch-npu插件+deepspeed官方版，可以解决非张量并行条件下的大模型训练需求，需要张量并行的话底层换为mindspeed（兼容megatron格式模型）。高性能推理的话用MindIE，也是华为自研的，对标VLLM。常用的上层框架，比如transformers，现在主线版都集成了NPU支持，可以自动调用NPU。
目前互联网公司这边，NV还在采购的卡已经只有4090/D了，然后推理卡方向，Atlas300I，寒武纪和其他几家国产卡（例如摩尔线程）都在评估中，预计未来也会替换掉4090系。

2、为什么说CUDA是NVIDIA的护城河?

3、英伟达涉嫌违反反垄断法，市场监管总局依法决定立案调查，如何从法律角度解读？会产生哪些影响？

论推理的效费比，Atlas300I打不过4090，但打个价格翻倍的L20可简单多了。

一、部署安装和性能

1.1 性能

GPU Performance (Data Sheets) Quick Reference (2023)

GitHub – mli/transformers-benchmarks: real Transformer TeraFLOPS on various GPUs

HuaWei、NVIDIA 数据中心 AI 算力对比

【GPU性能】英伟达 vs海思：GPU性能一览

1.2 部署安装

GitHub – KaihuaTang/LLM-TP-Inference-on-910B: 本项目提供了基于910B的huggingface LLM模型的Tensor Parallel(TP)部署教程，同时也可以作为一份极简的TP学习代码。

GPU 进阶笔记（二）：华为昇腾 910B GPU 相关（2023）

迁移总体思路-导读-PyTorch 训练模型迁移调优指南-Ascend Extension for PyTorch6.0.RC1开发文档-昇腾社区

Lightweight and cross-platform LLM agents on Ascend 910B

概述-导读-PyTorch 训练模型迁移调优指南-Ascend Extension for PyTorch6.0.RC1开发文档-昇腾社区

https://medium.com/@rockcat/%E5%85%B3%E4%BA%8E%E6%98%87%E8%85%BE910b-7423471eeb20

华为昇腾910B3 NPU训练最佳实践

Ascend NPU 架构 & CANN 平台入门学习

手把手教你在昇腾平台上搭建PyTorch训练环境-云社区-华为云

昇腾910平台安装驱动、固件、CANN toolkit、pytorch

昇腾910B国产化大模型适配指南-CSDN博客

https://blog.csdn.net/weixin_46398647/article/details/135332215

昇腾910B推理报错 · Issue #2385 · hiyouga/LLaMA-Factory

大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程（Pytorch版）随着 ChatGPT 的现象级走红，引领 – 掘金

回复@择日再死: 关于推理端对华为昇腾芯片的适配，目前已有明确的官方信息和技术验证，以下为关键内容总结：—### *… – 雪球

vLLM 0.4.2 版本昇腾框架适配说明-适配说明-vLLM基于Text Generator接口开发指南-服务化调度推理使用流程-MindIE LLM开发指南-大模型开发-MindIE1.0.RC3开发文档-昇腾社区

下载量化完成的模型：

LLM实践系列-昇腾910B上进行Qwen2.5推理_昇腾 vllm-CSDN博客

在华为昇腾 910B 上进行阿里大模型 Qwen2.5 推理_ollama适配华为910-CSDN博客

昇腾910b部署qwen-7b-chat进行流式输出【pytorch框架】NPU推理_qwen流式输出-CSDN博客

数澈软件（深圳）有限公司, llama-box:

github.com

fp16:

DeepSeek-R1-Distill-Qwen-14B-GGUF · 模型库

通义千问2.5-7B-Instruct-GGUF · 模型库

模型转换适配：

基于openi平台免费华为昇腾910B芯片部署qwen2.5 Instruct 14B大模型-阿里云开发者社区

从头开始：

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（一）-CSDN博客

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（二）_华为npu服务器调用通义千问模型-CSDN博客

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版（三）_get realpath parsing failed. failed to get model c-CSDN博客

昇腾，mindie，镜像，部署vllm：第1篇，安装新的docker 镜像-CSDN博客

昇腾，mindie，镜像，部署vllm：第2篇，启动mindieservice_daemon服务，支持对Qwen2.5的7B版本的推理-CSDN博客

二、相关库

2.1 第三方库

HAMi（前身为 ‘k8s-vGPU-scheduler’）是一个面向 Kubernetes 的异构设备管理中间件。它可以管理不同类型的异构设备（如 GPU、NPU、MLU、DCU 等），实现异构设备在 Pod 之间的共享，并基于设备拓扑和调度策略做出更优的调度决策。

HAMi 旨在消除不同异构设备之间的差异，为用户提供统一的管理接口，无需对应用程序进行任何修改。截至 2024 年 12 月，HAMi 除了在互联网、公有云、私有云等领域外，在金融、证券、能源、运营商、教育、制造业等垂直领域，也得到了广泛采纳。超过 40 家企业和机构不仅是最终用户，同时也是活跃的贡献者。

HAMi/docs/ascend910b-support_cn.md at master · Project-HAMi/HAMi