华为910B GPU训练和推理调研

零、芯片背景

0.1 芯片介绍

Ascend 910B的推出标志着华为在面对全球供应链挑战时,积极寻求本土化解决方案的努力。尽管SMIC的制造工艺与台积电相比仍有差距,但Ascend 910B的成功量产证明了中国半导体产业在高端芯片制造领域的进步。

LeptonY1:热度过后再谈华为昇腾910b

昇腾Ascend 910B2是华为公司推出的一款高性能AI处理器,属于昇腾系列的一部分。这款处理器专为数据中心的大规模训练任务设计,采用了7纳米工艺制造,旨在满足对算力有极高要求的应用场景。昇腾910B2支持FP16(半精度浮点数)和INT8(8位整数)两种精度的数据类型,这对于平衡计算速度与模型精度至关重要。该处理器具备强大的计算能力,据称其最大功率下的计算性能可达到256 TFLOPS(每秒万亿次浮点运算),而在310W TDP(热设计功耗)时则能提供320 TFLOPS的峰值性能。

原文链接:华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5–基于mindie镜像一路试错版(一)

外媒披露:华为Ascend 910B与台积电版本有何不同?

GPU 进阶笔记(二):华为昇腾 910B GPU

GPU 进阶笔记(三):华为 NPU/GPU 演进

910C将成为2025年国产GPU的中坚力量。25年市场预估910C能占到910一半的份额,这样在24年基础上简单粗算下,增量按保守50%,其中一半由更高价值的910C为主,910C服务器按1.5倍910B去计算,25年的昇腾服务器市场出货价值大概至少去到800亿以上的市场价值。

牧之一文 – 昇腾910C 中国AI算力的王座-上

0.2 详细介绍适配高价值文章

吃果冻不吐果冻皮:大模型国产化适配11-LLM训练性能基准测试(昇腾910B3)

github.com/liguodongiot

大模型国产化适配

Jeff Ding:使用华为昇腾910B体验LMDeploy

0.3 行业实际落地和具体实现高价值观点

1、华为910B芯片,国产AI芯片的希望,有人用过吗?

具体的模型训练方案是torch2.1以上官方版+torch-npu插件+deepspeed官方版,可以解决非张量并行条件下大模型训练需求,需要张量并行的话底层换为mindspeed(兼容megatron格式模型)。高性能推理的话用MindIE,也是华为自研的,对标VLLM。常用的上层框架,比如transformers,现在主线版都集成了NPU支持,可以自动调用NPU。
目前互联网公司这边,NV还在采购的卡已经只有4090/D了,然后推理卡方向,Atlas300I,寒武纪和其他几家国产卡(例如摩尔线程)都在评估中,预计未来也会替换掉4090系。

2、为什么说CUDA是NVIDIA的护城河?

3、英伟达涉嫌违反反垄断法,市场监管总局依法决定立案调查,如何从法律角度解读?会产生哪些影响?

论推理的效费比,Atlas300I打不过4090,但打个价格翻倍的L20可简单多了。

一、部署安装和性能

1.1 性能

GPU Performance (Data Sheets) Quick Reference (2023)

GitHub – mli/transformers-benchmarks: real Transformer TeraFLOPS on various GPUs

HuaWei、NVIDIA 数据中心 AI 算力对比

【GPU性能】英伟达 vs海思:GPU性能一览

1.2 部署安装

GitHub – KaihuaTang/LLM-TP-Inference-on-910B: 本项目提供了基于910B的huggingface LLM模型的Tensor Parallel(TP)部署教程,同时也可以作为一份极简的TP学习代码。

GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)

迁移总体思路-导读-PyTorch 训练模型迁移调优指南-Ascend Extension for PyTorch6.0.RC1开发文档-昇腾社区

Lightweight and cross-platform LLM agents on Ascend 910B

概述-导读-PyTorch 训练模型迁移调优指南-Ascend Extension for PyTorch6.0.RC1开发文档-昇腾社区

medium.com/@rockcat/%E5

华为昇腾910B3 NPU训练最佳实践

Ascend NPU 架构 & CANN 平台入门学习

手把手教你在昇腾平台上搭建PyTorch训练环境-云社区-华为云

昇腾910平台安装驱动、固件、CANN toolkit、pytorch

昇腾910B国产化大模型适配指南-CSDN博客

blog.csdn.net/weixin_46

昇腾910B推理报错 · Issue #2385 · hiyouga/LLaMA-Factory

大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程(Pytorch版)随着 ChatGPT 的现象级走红,引领 – 掘金

回复@择日再死: 关于推理端对华为昇腾芯片的适配,目前已有明确的官方信息和技术验证,以下为关键内容总结:—### *… – 雪球

vLLM 0.4.2 版本昇腾框架适配说明-适配说明-vLLM基于Text Generator接口开发指南-服务化调度推理使用流程-MindIE LLM开发指南-大模型开发-MindIE1.0.RC3开发文档-昇腾社区

下载量化完成的模型:

LLM实践系列-昇腾910B上进行Qwen2.5推理_昇腾 vllm-CSDN博客

在华为昇腾 910B 上进行阿里大模型 Qwen2.5 推理_ollama适配华为910-CSDN博客

昇腾910b部署qwen-7b-chat进行流式输出【pytorch框架】NPU推理_qwen流式输出-CSDN博客

数澈软件(深圳)有限公司, llama-box:

github.com

fp16:

DeepSeek-R1-Distill-Qwen-14B-GGUF · 模型库

通义千问2.5-7B-Instruct-GGUF · 模型库

模型转换适配:

基于openi平台免费华为昇腾910B芯片部署qwen2.5 Instruct 14B大模型-阿里云开发者社区

从头开始:

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版(一)-CSDN博客

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版(二)_华为npu服务器调用通义千问模型-CSDN博客

华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版(三)_get realpath parsing failed. failed to get model c-CSDN博客

昇腾,mindie,镜像,部署vllm:第1篇,安装新的docker 镜像-CSDN博客

昇腾,mindie,镜像,部署vllm:第2篇,启动mindieservice_daemon服务,支持对Qwen2.5的7B版本的推理-CSDN博客

二、相关库

2.1 第三方库

HAMi(前身为 ‘k8s-vGPU-scheduler’)是一个面向 Kubernetes 的异构设备管理中间件。它可以管理不同类型的异构设备(如 GPU、NPU、MLU、DCU 等),实现异构设备在 Pod 之间的共享,并基于设备拓扑和调度策略做出更优的调度决策。

HAMi 旨在消除不同异构设备之间的差异,为用户提供统一的管理接口,无需对应用程序进行任何修改。截至 2024 年 12 月,HAMi 除了在互联网、公有云、私有云等领域外,在金融、证券、能源、运营商、教育、制造业等垂直领域,也得到了广泛采纳。超过 40 家企业和机构不仅是最终用户,同时也是活跃的贡献者。

HAMi/docs/ascend910b-support_cn.md at master · Project-HAMi/HAMi

2.2 官方NPU库

这个存储库为PyTorch开发了名为torch_npu的Ascend扩展,以使Ascend NPU适应PyTorch,以便使用PyTorch的开发人员可以获得Ascend AI处理器的强大计算能力。

Ascend是基于华为Ascend处理器和软件的全栈AI计算基础设施,面向行业应用和服务。有关Ascend的更多信息,请参阅Ascend社区。

GitHub – Ascend/pytorch: Ascend PyTorch adapter (torch_npu). Mirror of https://gitee.com/ascend/pytorch

2.3 DeepSpeed

DeepSpeed_NPU-PyTorch-模型库-ModelZoo-昇腾社区

三、权威文档

快速安装昇腾环境 – 昇腾开源 1.0 文档

全流程昇腾实践 – 昇腾开源 1.0 文档

昇腾AI-910B平台使用文档 – 上海交大超算平台用户手册

昇腾异构计算架构CANN-昇腾社区

四、典型应用

4.1 OCR的应用

文字识别场景下昇腾910 NPU推理测试

华为昇腾NPU部署Paddle OCR(包含CPU部署表格检测与还原)记

paddleocr 在华为910b的aarch架构的npu上运行很慢且只跑了一个卡 · PaddlePaddle/PaddleOCR · Discussion #12530

华为昇腾 NPU 部署示例-PaddlePaddle深度学习平台

使用Modelbox+Mindspore+昇腾芯片部署OCR推理应用,最高可节约75%资源!-云社区-华为云

昇腾 NPU 基于框架的使用指南

PaddleOCR在华为云上实现文本检测识别任务,并部署到华为昇腾NPU的详细步骤_paddleocr npu-CSDN博客

华为昇腾 NPU-PaddlePaddle深度学习平台

昇腾 NPU 安装说明-PaddlePaddle深度学习平台

从头开始:

PaddleOCR适配昇腾开源验证任务心得-云社区-华为云

百度官方安装:

多硬件安装飞桨 – PaddleOCR 文档

4.2 llamafactory

openMind+LLaMAFactory:Qwen1.5-7B 微调及推理昇腾实践

华为 NPU 适配 – LLaMA Factory

LLaMA-Factory适配昇腾开源验证任务心得-云社区-华为云

4.3 物体识别

华为Ascend芯片显卡docker环境搭建并完成YOLO8推理_ascendhub-CSDN博客

4.4 大模型推理

OpenGVLab:基于华为昇腾910B,实战InternVL2-8B模型推理

在昇腾Ascend 910B上运行Qwen2.5推理

语言模型deepseek部署到华为昇腾NPU的详细步骤-CSDN博客

如何使用鲲鹏处理器+华为910b部署千问2?

TeleChat2/tutorial/telechat_国产化运行.md at main · Tele-AI/TeleChat2

语言模型deepseek部署到华为昇腾NPU的详细步骤_deepseek 部署-CSDN博客

4.5 翻译

模型库-ModelZoo-昇腾社区

4.6 NLP应用

NLP开源项目flair部署到华为昇腾NPU的详细步骤_nlp 开源引擎 支持华为升腾-CSDN博客

【第四周】任务2:基于openMind与昇腾算力适配跑通German_Semantic_V3模型【图文教程】

PaddleNLP/docs/model_zoo/model_list_multy_device.md at develop · PaddlePaddle/PaddleNLP

wwfu/Bert-Large-NPU-Inference

4.7vllm

VLLM适配昇腾开源体验任务心得-云社区-华为云

4.8 onnx适配

高兴花甲粉:记录:yolov8华为昇腾910b适配

ppocr的适配:

文字识别场景下昇腾910 NPU推理测试

五、代码实例

5.1 官方模型库实例

模型库-ModelZoo-昇腾社区

hiascend.com/forum/thre

Bert_CRF-PyTorch-模型库-ModelZoo-昇腾社区

大模型训练查找:

Ascend/MindSpeed-LLM

大模型推理查找:

MindIE支持模型列表-MindIE是什么-MindIE1.0.RC2开发文档-昇腾社区

昇腾社区学习文档

昇腾文档-昇腾社区

昇腾开发者主页-开发者中心-开发资源-昇腾社区

昇腾开发资源下载中心-昇腾社区

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/ai/315624.html

(0)
上一篇 2025年3月5日 17:10
下一篇 2天前

相关推荐

发表回复

登录后才能评论