零、芯片背景
0.1 芯片介绍
Ascend 910B的推出标志着华为在面对全球供应链挑战时,积极寻求本土化解决方案的努力。尽管SMIC的制造工艺与台积电相比仍有差距,但Ascend 910B的成功量产证明了中国半导体产业在高端芯片制造领域的进步。
昇腾Ascend 910B2是华为公司推出的一款高性能AI处理器,属于昇腾系列的一部分。这款处理器专为数据中心的大规模训练任务设计,采用了7纳米工艺制造,旨在满足对算力有极高要求的应用场景。昇腾910B2支持FP16(半精度浮点数)和INT8(8位整数)两种精度的数据类型,这对于平衡计算速度与模型精度至关重要。该处理器具备强大的计算能力,据称其最大功率下的计算性能可达到256 TFLOPS(每秒万亿次浮点运算),而在310W TDP(热设计功耗)时则能提供320 TFLOPS的峰值性能。
原文链接:华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5–基于mindie镜像一路试错版(一)
910C将成为2025年国产GPU的中坚力量。25年市场预估910C能占到910一半的份额,这样在24年基础上简单粗算下,增量按保守50%,其中一半由更高价值的910C为主,910C服务器按1.5倍910B去计算,25年的昇腾服务器市场出货价值大概至少去到800亿以上的市场价值。
0.2 详细介绍适配高价值文章
吃果冻不吐果冻皮:大模型国产化适配11-LLM训练性能基准测试(昇腾910B3)
https://github.com/liguodongiot/llm-action
Jeff Ding:使用华为昇腾910B体验LMDeploy
0.3 行业实际落地和具体实现高价值观点
具体的模型训练方案是torch2.1以上官方版+torch-npu插件+deepspeed官方版,可以解决非张量并行条件下的大模型训练需求,需要张量并行的话底层换为mindspeed(兼容megatron格式模型)。高性能推理的话用MindIE,也是华为自研的,对标VLLM。常用的上层框架,比如transformers,现在主线版都集成了NPU支持,可以自动调用NPU。
目前互联网公司这边,NV还在采购的卡已经只有4090/D了,然后推理卡方向,Atlas300I,寒武纪和其他几家国产卡(例如摩尔线程)都在评估中,预计未来也会替换掉4090系。
3、英伟达涉嫌违反反垄断法,市场监管总局依法决定立案调查,如何从法律角度解读?会产生哪些影响?
论推理的效费比,Atlas300I打不过4090,但打个价格翻倍的L20可简单多了。
一、部署安装和性能
1.1 性能
GPU Performance (Data Sheets) Quick Reference (2023)
GitHub – mli/transformers-benchmarks: real Transformer TeraFLOPS on various GPUs
1.2 部署安装
GPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)
迁移总体思路-导读-PyTorch 训练模型迁移调优指南-Ascend Extension for PyTorch6.0.RC1开发文档-昇腾社区
Lightweight and cross-platform LLM agents on Ascend 910B
概述-导读-PyTorch 训练模型迁移调优指南-Ascend Extension for PyTorch6.0.RC1开发文档-昇腾社区
https://medium.com/@rockcat/%E5%85%B3%E4%BA%8E%E6%98%87%E8%85%BE910b-7423471eeb20
手把手教你在昇腾平台上搭建PyTorch训练环境-云社区-华为云
昇腾910平台安装驱动、固件、CANN toolkit、pytorch
https://blog.csdn.net/weixin_46398647/article/details/135332215
昇腾910B推理报错 · Issue #2385 · hiyouga/LLaMA-Factory
大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程(Pytorch版)随着 ChatGPT 的现象级走红,引领 – 掘金
回复@择日再死: 关于推理端对华为昇腾芯片的适配,目前已有明确的官方信息和技术验证,以下为关键内容总结:—### *… – 雪球
下载量化完成的模型:
LLM实践系列-昇腾910B上进行Qwen2.5推理_昇腾 vllm-CSDN博客
在华为昇腾 910B 上进行阿里大模型 Qwen2.5 推理_ollama适配华为910-CSDN博客
昇腾910b部署qwen-7b-chat进行流式输出【pytorch框架】NPU推理_qwen流式输出-CSDN博客
数澈软件(深圳)有限公司, llama-box:
fp16:
DeepSeek-R1-Distill-Qwen-14B-GGUF · 模型库
通义千问2.5-7B-Instruct-GGUF · 模型库
模型转换适配:
基于openi平台免费华为昇腾910B芯片部署qwen2.5 Instruct 14B大模型-阿里云开发者社区
从头开始:
华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版(一)-CSDN博客
华为NPU服务器昇腾Ascend 910B2部署通义千问Qwen2.5——基于mindie镜像一路试错版(二)_华为npu服务器调用通义千问模型-CSDN博客
昇腾,mindie,镜像,部署vllm:第1篇,安装新的docker 镜像-CSDN博客
昇腾,mindie,镜像,部署vllm:第2篇,启动mindieservice_daemon服务,支持对Qwen2.5的7B版本的推理-CSDN博客
二、相关库
2.1 第三方库
HAMi(前身为 ‘k8s-vGPU-scheduler’)是一个面向 Kubernetes 的异构设备管理中间件。它可以管理不同类型的异构设备(如 GPU、NPU、MLU、DCU 等),实现异构设备在 Pod 之间的共享,并基于设备拓扑和调度策略做出更优的调度决策。
HAMi 旨在消除不同异构设备之间的差异,为用户提供统一的管理接口,无需对应用程序进行任何修改。截至 2024 年 12 月,HAMi 除了在互联网、公有云、私有云等领域外,在金融、证券、能源、运营商、教育、制造业等垂直领域,也得到了广泛采纳。超过 40 家企业和机构不仅是最终用户,同时也是活跃的贡献者。
HAMi/docs/ascend910b-support_cn.md at master · Project-HAMi/HAMi
2.2 官方NPU库
这个存储库为PyTorch开发了名为torch_npu的Ascend扩展,以使Ascend NPU适应PyTorch,以便使用PyTorch的开发人员可以获得Ascend AI处理器的强大计算能力。
Ascend是基于华为Ascend处理器和软件的全栈AI计算基础设施,面向行业应用和服务。有关Ascend的更多信息,请参阅Ascend社区。
2.3 DeepSpeed
DeepSpeed_NPU-PyTorch-模型库-ModelZoo-昇腾社区
三、权威文档
昇腾AI-910B平台使用文档 – 上海交大超算平台用户手册
四、典型应用
4.1 OCR的应用
华为昇腾NPU部署Paddle OCR(包含CPU部署表格检测与还原)记
paddleocr 在华为910b的aarch架构的npu上运行很慢且只跑了一个卡 · PaddlePaddle/PaddleOCR · Discussion #12530
华为昇腾 NPU 部署示例-PaddlePaddle深度学习平台
使用Modelbox+Mindspore+昇腾芯片部署OCR推理应用,最高可节约75%资源!-云社区-华为云
PaddleOCR在华为云上实现文本检测识别任务,并部署到华为昇腾NPU的详细步骤_paddleocr npu-CSDN博客
昇腾 NPU 安装说明-PaddlePaddle深度学习平台
从头开始:
百度官方安装:
4.2 llamafactory
openMind+LLaMAFactory:Qwen1.5-7B 微调及推理昇腾实践
LLaMA-Factory适配昇腾开源验证任务心得-云社区-华为云
4.3 物体识别
华为Ascend芯片显卡docker环境搭建并完成YOLO8推理_ascendhub-CSDN博客
4.4 大模型推理
OpenGVLab:基于华为昇腾910B,实战InternVL2-8B模型推理
语言模型deepseek部署到华为昇腾NPU的详细步骤-CSDN博客
TeleChat2/tutorial/telechat_国产化运行.md at main · Tele-AI/TeleChat2
语言模型deepseek部署到华为昇腾NPU的详细步骤_deepseek 部署-CSDN博客
4.5 翻译
4.6 NLP应用
NLP开源项目flair部署到华为昇腾NPU的详细步骤_nlp 开源引擎 支持华为升腾-CSDN博客
【第四周】任务2:基于openMind与昇腾算力适配跑通German_Semantic_V3模型【图文教程】
PaddleNLP/docs/model_zoo/model_list_multy_device.md at develop · PaddlePaddle/PaddleNLP
4.7vllm
4.8 onnx适配
ppocr的适配:
五、代码实例
5.1 官方模型库实例
https://www.hiascend.com/forum/thread-0255146198697378018-1-1.html
Bert_CRF-PyTorch-模型库-ModelZoo-昇腾社区
大模型训练查找:
大模型推理查找:
MindIE支持模型列表-MindIE是什么-MindIE1.0.RC2开发文档-昇腾社区
昇腾社区学习文档
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/ai/315624.html