国产算力卡综合对比表
厂商 | 型号 | 核心架构 | 制程工艺 | 算力(FP16/INT8) | 显存配置 | 功耗(TDP) | 接口类型 | 典型应用场景 | 软件生态 | 备注 |
华为昇腾 | 麒麟 910B | 达芬奇架构 | 7nm+ | 256 TFLOPS@FP16 512 TOPS@INT8 |
32GB HBM2e | 350W | PCIe 4.0 x16 | 大模型训练、超算集群 | 昇腾 MindSpore、TensorFlow/PyTorch 适配 | 支持液冷,卡间互联 900GB/s |
寒武纪 | MLU370-X8 | MLUarch03 | 7nm | 96 TFLOPS@FP16 256 TOPS@INT8 |
48GB LPDDR5 | 250W | PCIe 4.0 x16 | AI 训练、分布式推理 | Cambricon NeuWare、PyTorch 优化 | 4 卡全互联,加速比 155% |
海光信息 | 深算二号 | 类 CUDA 架构 | 14nm | 254 TOPS@训练 515 TOPS@推理 |
32GB GDDR6 | 300W | PCIe 4.0 x16 | 大数据处理、科学计算 | 兼容 CUDA 生态,支持 RoCM 框架 | 国产替代首选,性能提升 100% |
壁仞科技 | BR106B | Blink 架构 | 7nm | 未公开(BR100 峰值 1000T@FP16) | 未公开 | 300W | PCIe 4.0 x16 | 云端推理、多模态模型 | BIRENSUPA 平台,适配 30 + 大模型 | 三级异步 checkpoint 技术 |
摩尔线程 | MTT S80 | 春晓架构 | 12nm | 14.4 TFLOPS@FP32 | 16GB GDDR6 | 250W | PCIe 5.0 x16 | 图形渲染、边缘计算 | DirectX 12、OpenCL 3.0 | 消费级性价比高,企业级适配待验证 |
地平线 | 征程 5 | BPU 5.0 | 16nm | 128 TOPS@INT8 | 8GB LPDDR4 | 30W | PCIe 3.0 x8 | 自动驾驶、车规级计算 | Horizon Matrix-Studio | 支持 16 路摄像头融合 |
燧原科技 | 邃思 2.0 | GCU-CARA | 7nm | 160 TFLOPS@TF32 40 TFLOPS@FP32 |
64GB HBM2e | 300W | PCIe 4.0 x16 | 大模型训练、超算集群 | 驭算 TopsRider,支持 Horovod | 国内首款支持 TF32 芯片 |
天数智芯 | 天垓 100 | 7nm | 7nm | 1000 TOPS@INT8 | 32GB HBM2 | 300W | PCIe 4.0 x16 | 超算中心、千卡集群 | 兼容 CUDA,支持 PyTorch | 国产首款通用 GPU,订单超 2 亿元 |
云天励飞 | IPU-X6000 | DeepEdge200 | 7nm | 256 TOPS@INT8 | 128GB HBM2e | 350W | PCIe 4.0 x16 | 云端推理、多模态模型 | 适配 30 + 大模型,成本下降 50% | 显存容量行业领先 |
太初元基 | T100 | 自研架构 | 7nm | 480 TOPS@INT8 | 32GB HBM2e | 300W | PCIe 4.0 x16 | 大模型训练、边缘推理 | 兼容 TensorFlow/PyTorch | 对标英伟达 A100 |
清微智能 | TX810 | 可重构计算架构 | 7nm | 未公开(云端训练芯片) | 未公开 | 未公开 | PCIe 4.0 x16 | 大模型训练、云端推理 | 支持 TensorFlow/PyTorch,与飞桨合作优化 | 可重构架构,支持千卡集群 |
清微智能 | TX536 | 可重构计算架构 | 16nm | 4 TOPS@INT8 | 8GB LPDDR3 | 1W | PCIe 3.0 x8 | 边缘计算、智能安防 | 骑士工具链,兼容主流框架 | 能效比 6.3TOPS/W,功耗极低 |
核心参数对比与分析
- 算力与能效:
- 华为昇腾 910B:FP16 算力 256 TFLOPS,INT8 算力 512 TOPS,能效比 5.2 TFLOPS/W,领先英伟达 A100(4.7 TFLOPS/W)。
- 寒武纪 MLU370-X8:通过 MLU-Link 技术实现 4 卡全互联,8 卡加速比达 155%,适合分布式训练。
- 海光深算二号:类 CUDA 生态兼容,性能较前代提升 100%,适合需要快速迁移英伟达模型的场景。
- 显存与带宽:
- 燧原邃思 2.0:64GB HBM2e 显存 + 1.8TB/s 带宽,支持 70B 参数大模型训练,显存容量为国产最高。
- 云天励飞 IPU-X6000:128GB HBM2e 显存,专为云端推理优化,单卡可支持千亿参数模型。
- 应用场景:
- 训练场景:昇腾 910B、寒武纪 MLU370-X8、燧原邃思 2.0 适合大模型训练,支持千卡集群。
- 推理场景:地平线征程 5(车规级)、摩尔线程 MTT S80(边缘端)、云天励飞 IPU-X6000(云端)各有侧重。
- 生态与兼容性:
- 海光深算二号:兼容 CUDA 生态,降低开发迁移成本,适合传统企业转型。
- 壁仞科技:通过 BIRENSUPA 平台适配 30 + 大模型,支持国产替代快速落地。
- 成本与性价比:
- 摩尔线程 MTT S80:单价仅 0.3 万元,适合预算有限的边缘计算场景。
- 华为昇腾 910B:单价 12 万元,综合性能与生态优势显著,适合大规模数据中心。
国产算力卡选型建议
需求场景 | 推荐型号 | 核心优势 |
大模型训练(千卡集群) | 华为昇腾 910B | 高算力、液冷支持、昇腾 MindSpore 深度优化,适配 GPT-4 级模型 |
分布式训练(4-8 卡) | 寒武纪 MLU370-X8 | MLU-Link 全互联技术,加速比 155%,性价比优于英伟达 RTX 3090 |
科学计算 / 双精度需求 | 海光深算二号 | 类 CUDA 生态,支持双精度浮点运算,性能提升 100% |
云端推理(千亿参数模型) | 云天励飞 IPU-X6000 | 128GB 显存,支持 30 + 大模型,推理成本下降 50% |
车规级自动驾驶 | 地平线征程 5 | 128 TOPS@INT8,支持 16 路摄像头融合,通过 ISO 26262 认证 |
边缘端轻量级推理 | 摩尔线程 MTT S80 | 14.4 TFLOPS@FP32,250W 低功耗,支持 PCIe 5.0 |
风险与挑战
- 技术迭代:国产算力卡性能迭代速度(如昇腾 910B vs 英伟达 H100)仍有差距,需预留硬件升级空间。
- 生态适配:部分型号(如天数智芯天垓 100)软件生态尚未成熟,需依赖第三方优化。
- 供应链安全:壁仞科技、摩尔线程等企业受美国制裁影响,需关注供货稳定性。
未来趋势
- 液冷普及:华为昇腾 910B、燧原邃思 2.0 等支持液冷设计,推动数据中心 PUE 降至 1.1 以下。
- 存算一体:云天励飞 IPU-X6000 的 128GB 显存和寒武纪 MLU370-X8 的 HBM2e 技术,缓解 “内存墙” 瓶颈。
- 政策驱动:国产算力卡采购可享受地方政府补贴(如北京市算力券),降低初期投资成本。
清微智能技术特性与对比分析
- 架构创新:可重构计算(CGRA)
- 技术原理:清微智能的 TX810 和 TX536 芯片采用可重构计算架构,通过空域并行计算模式实现硬件资源的动态配置。这种架构突破了传统冯・诺依曼架构的 “内存墙” 和 “功耗墙”,可根据算法需求实时重构计算通路,兼顾灵活性与能效。
- 性能优势:
- 能效比:TX536 的能效比达 6.3TOPS/W@INT8,典型功耗仅 1W,适用于边缘端低功耗场景。
- 扩展性:TX810 支持 scale-out 架构,算力可近似线性扩展,适合大集群智算中心。
- 产品矩阵与应用场景
- TX8 系列(云端):
- 定位:面向大模型训练和云端推理,支持千亿参数模型部署。
- 技术亮点:原生支持多机多卡集群,适配 DeepSpeed、vLLM 等分布式训练框架,支持数据并行、流水并行和张量并行。
- TX5 系列(边缘端):
- 代表型号 TX536:集成 ISP、H.265 编解码器和可重构计算引擎,支持 AI 降噪、超分等图像处理,广泛应用于智能安防、机器人等领域。
- 软件生态与兼容性
- 框架支持:
- 支持 TensorFlow、PyTorch、Caffe 等主流框架,提供骑士工具链实现模型转换与优化。
- 与飞桨合作,推出定制版框架,降低开发门槛。
- 分布式训练:
- 支持千卡集群,通过优化集合通信和网络拓扑,提升训练效率。
- 适配大模型训练工具(如 Megatron-LM)和推理引擎(如 TensorRT-LM)。
- 成本与性价比
- 边缘端 TX536:
- 价格推测:参考同类边缘计算芯片(如地平线征程 5),TX536 单价可能在 0.5 万元以下,适合低成本边缘部署。
- 云端 TX810:
- 价格未公开,但可重构架构可能降低硬件成本,尤其在大集群场景下能效比优势显著。
- 风险与挑战
- 技术成熟度:可重构计算生态尚不完善,需依赖第三方工具链优化。
- 供应链稳定性:作为新兴企业,需关注芯片量产能力和供货稳定性。
清微智能与主流厂商对比
维度 | 清微智能 | 华为昇腾 | 寒武纪 |
架构 | 可重构计算(CGRA) | 达芬奇架构 | MLUarch |
能效比 | 6.3TOPS/W(TX536) | 5.2TFLOPS/W(910B) | 4.8TOPS/W(MLU370-X8) |
集群支持 | 千卡集群(scale-out 架构) | 万卡集群(昇腾 MindSpore) | 8 卡全互联(MLU-Link) |
软件生态 | 支持 TensorFlow/PyTorch,飞桨合作 | 昇腾 MindSpore 深度优化 | Cambricon NeuWare 优化 |
典型场景 | 边缘计算、云端推理 | 大模型训练、超算集群 | 分布式训练、推理 |
选型建议
- 边缘端低功耗需求:优先选择清微智能 TX536,其 1W 功耗和 6.3TOPS/W 能效比显著优于地平线征程 (30W/128TOPS)。
- 云端大模型训练:若需可重构架构灵活性,清微智能 TX810 是国产替代选项;若追求成熟生态,华为昇腾 910B 仍是首选。
- 成本敏感场景:TX536 在边缘端性价比突出,而 TX810 在云端可能通过架构优势降低长期能耗成本。
未来趋势
- 可重构计算普及:清微智能计划在 TX8 系列加大市场推广,推动可重构技术在智算中心的应用。
- 政策支持:国产算力卡采购可享受地方补贴(如北京市算力券),进一步降低清微智能产品的落地成本
国产算力卡生态对比
在国产算力卡领域,软件生态的完善程度直接影响开发者的使用体验和产业落地效率。从框架支持、工具链成熟度、社区活跃度、应用案例覆盖等维度综合评估,华为昇腾的软件生态目前最为完善,其次是寒武纪和海光信息,而清微智能、壁仞科技等新兴厂商则在特定场景下展现出差异化优势。以下是具体分析:
一、华为昇腾:全栈生态闭环,大模型训练与推理的首选
- 框架支持与工具链
- 自研框架 MindSpore:昇腾深度优化的 MindSpore 框架已支持千亿参数大模型训练,兼容 PyTorch、TensorFlow 等主流框架的模型迁移。2025 年,昇腾与迅龙软件、润和软件等合作伙伴联合发布DeepSeek 大模型一体机,实现 “芯片级算力优化 – 模型层轻量化压缩 – 业务端开箱即用” 的闭环,显著降低企业 AI 部署门槛34。
- 工具链覆盖全流程:
- 昇腾 CANN:提供算子开发、模型转换、性能调优等工具,支持从训练到推理的全流程优化。
- MindX SDK:针对计算机视觉、自然语言处理等场景提供预集成方案,加速行业应用落地。
- ModelArts:一站式 AI 开发平台,支持分布式训练、自动调优等功能,适配昇腾硬件加速。
- 社区与开发者资源
- 开发者社区:昇腾社区累计注册开发者超 150 万,提供丰富的教程、案例和模型库(如 MindFormers 大模型套件)。2025 年,昇腾联合 22 家伙伴推出大模型应用一体机,支持 vLLM 框架和一键式部署,进一步降低开发门槛16。
- 合作伙伴生态:与 DeepSeek、百度文心一言、阿里通义千问等大模型厂商深度合作,实现模型与硬件的协同优化。例如,DeepSeek 系列模型首发即支持昇腾平台,推理性能较传统方案提升 90%15。
- 应用场景覆盖
- 大模型训练:昇腾 910B 支持千卡集群,适配 GPT-4 级模型训练,已在国内多个智算中心落地。
- 推理场景:通过 MindIE 推理引擎和 Atlas 系列硬件,覆盖智能安防、工业质检、医疗影像等领域,支持实时高并发推理。
- 政策与生态认证
- 昇腾生态入选国家信创目录,享受地方政府算力券补贴,降低企业采购成本。例如,北京市对使用昇腾算力的企业提供最高 50% 的算力券支持。
二、寒武纪:分布式训练与推理的生态先锋
- 框架与工具链
- NeuWare 工具链:支持 PyTorch、TensorFlow 等框架的模型优化,提供自动并行、混合精度训练等功能。寒武纪 MLU370-X8 通过 MLU-Link 技术实现 4 卡全互联,8 卡加速比达 155%,适合分布式训练5。
- 标准制定与行业适配:参与 30 余项国家标准制定,覆盖 AI 芯片硬件、软件、服务器集群等领域,推动生态标准化。例如,寒武纪芯片已适配视觉、语音、自然语言处理等多模态任务,在智慧金融、智能制造等场景有广泛应用17。
- 开发者支持
- 寒武纪大学:提供免费课程和认证体系,帮助开发者快速掌握 MLUarch03 架构的开发技巧。
- 模型动物园:预置 ResNet、BERT 等主流模型,支持一键部署和性能优化。
- 应用场景
- 分布式训练:寒武纪 MLU370-X8 在 4-8 卡集群中表现优异,适合中小型企业的多卡训练需求。
- 推理优化:寒武纪思元系列芯片在边缘端支持低功耗推理,已应用于智能摄像头、机器人等设备。
- 挑战
- 算子库数量(约 200 个)仍少于英伟达 CUDA(400+),部分复杂模型需手动优化2。
三、海光信息:CUDA 兼容生态,传统企业迁移的桥梁
- 框架与工具链
- DTK 软件栈:兼容 CUDA 生态,支持 PyTorch、TensorFlow 等框架的无缝迁移。海光深算二号通过 “类 CUDA” 架构,可直接运行基于英伟达 GPU 开发的代码,降低迁移成本。
- 双精度计算优势:海光 DCU 支持全精度浮点运算,适合科学计算、金融建模等对双精度需求高的场景。
- 开发者支持
- CUDA 兼容工具:提供 CUDA-to-DTK 转换工具,帮助开发者快速适配国产硬件。
- 社区与文档:海光开发者社区提供 CUDA 迁移指南和案例,降低学习门槛。
- 应用场景
- 科学计算:海光深算二号在气象预测、石油勘探等领域表现优异,性能较前代提升 100%。
- AI 推理:支持大模型推理,与 DeepSeek 合作实现 70B 参数模型的高效部署。
- 挑战
- 大模型训练性能(254 TOPS@训练)仍落后于昇腾 910B(512 TOPS@INT8),需依赖第三代产品深算三号的提升。
四、清微智能:可重构架构,边缘计算的生态潜力股
- 框架与工具链
- 骑士工具链:支持 TensorFlow、PyTorch 等框架,提供模型转换、性能优化等功能。清微智能的可重构计算架构可根据算法需求动态配置硬件资源,提升能效比。
- 边缘端优化:TX536 芯片集成 ISP、H.265 编解码器,支持 AI 降噪、超分等图像处理,适配智能安防、机器人等场景。
- 开发者支持
- 开发者社区:清微智能社区提供可重构计算的开发教程和案例,支持在线学习和认证。
- 合作伙伴:与飞桨合作推出定制版框架,降低开发门槛。
- 应用场景
- 边缘计算:TX536 能效比达 6.3TOPS/W,功耗仅 1W,适合低功耗边缘设备。
- 云端推理:TX810 支持千卡集群,可扩展算力以满足大模型推理需求。
- 挑战
- 可重构计算生态尚不完善,工具链和模型优化案例较少,需依赖第三方支持。
五、壁仞科技:云端推理生态,大模型适配的黑马
- 框架与工具链
- BIRENSUPA 平台:适配 30 + 大模型,支持 DeepSeek、LLaMA 等模型的高效推理。壁仞 BR106B 通过三级异步 checkpoint 技术,提升训练稳定性。
- 模型服务化:壁仞 AI 算力平台提供云端推理服务,支持零部署成本和多场景覆盖。
- 开发者支持
- 模型适配:壁仞科技与 DeepSeek 合作,数小时内完成模型适配,支持从 1.5B 到 70B 参数的全系列模型。
- 开发者资源:提供 API 文档和示例代码,降低使用门槛。
- 应用场景
- 云端推理:壁仞 BR106B 支持千亿参数模型,已应用于金融、医疗等领域的高并发推理。
- 多模态任务:适配图像、语音、自然语言处理等多模态模型,推动行业智能化转型。
- 挑战
- 硬件性能(BR100 峰值 1000T@FP16)未公开,生态成熟度待验证。
六、综合对比与选型建议
厂商 | 生态优势 | 短板 | 典型场景 |
华为昇腾 | 全栈生态闭环,支持大模型训练与推理,政策支持力度大。 | 依赖自研框架,部分场景需深度优化。 | 大模型训练、超算集群、行业 AI 落地。 |
寒武纪 | 分布式训练优化,适配多模态任务,参与标准制定。 | 算子库数量较少,边缘端生态较弱。 | 分布式训练、云端推理、智慧金融。 |
海光信息 | CUDA 兼容生态,双精度计算优势,适合传统企业迁移。 | 大模型训练性能待提升,生态依赖英伟达工具链。 | 科学计算、金融建模、AI 推理。 |
清微智能 | 可重构架构,边缘端能效比高,适配低功耗场景。 | 生态成熟度低,工具链不完善。 | 边缘计算、智能安防、机器人。 |
壁仞科技 | 云端推理优化,大模型适配快速,支持多模态任务。 | 硬件性能未公开,生态验证案例较少。 | 云端推理、多模态模型、高并发任务。 |
七、未来趋势与风险提示
- 技术迭代:华为昇腾、寒武纪等厂商持续推出新一代芯片(如昇腾 920B、寒武纪 MLU470),性能提升显著,但需关注兼容性。
- 生态竞争:海光信息的 CUDA 兼容策略可能吸引传统企业,而昇腾、寒武纪则通过深度优化巩固优势。
- 政策支持:国产算力卡采购可享受地方补贴(如北京市算力券),进一步降低生态建设成本。
- 供应链风险:壁仞科技、摩尔线程等企业受美国制裁影响,需关注供货稳定性。
国产算力卡精度对比
以下是国产主流算力卡在 FP32/FP16/BF16/INT8/INT4 等全精度维度的综合对比表格,覆盖训练、推理及特殊场景的算力表现,并结合软件生态与应用场景提供选型建议:
厂商 / 型号 | FP32 | FP16 | BF16 | INT8 | INT4 | 其他精度 | 能效比(TOPS/W) | 软件生态支持 | 典型应用场景 |
华为昇腾 910B | 128 TFLOPS | 320 TFLOPS | 320 TFLOPS | 640 TOPS | 1280 TOPS | FP64 | 1.33(INT8) | MindSpore、TensorFlow、PyTorch | 大模型训练、超算集群、行业 AI 落地 |
寒武纪 MLU370 | 24 TFLOPS | 96 TFLOPS | 96 TFLOPS | 256 TOPS | 512 TOPS | INT16 | 1.28(INT8) | Caffe、TensorFlow、PyTorch | 分布式训练、云端推理、智慧金融 |
壁仞 BR100 | 256 TFLOPS | 512 TFLOPS | 1024 TFLOPS | 2048 TOPS | 4096 TOPS | TF32+ | 1.6(INT8) | TensorFlow、PyTorch、CUDA 兼容性 | 云端推理、多模态模型、高并发任务 |
燧原邃思 2.0 | 40 TFLOPS | 192 TFLOPS | 192 TFLOPS | 384 TOPS | 768 TOPS | TF32 | 1.4(INT8) | TensorFlow、PyTorch、CUDA 兼容性 | 训练 / 推理一体化、超大规模模型训练 |
海光深算二号 | 32 TFLOPS | 128 TFLOPS | 128 TFLOPS | 256 TOPS | 512 TOPS | FP64 | 1.0(INT8) | CUDA 兼容、PyTorch、TensorFlow | 科学计算、金融建模、AI 推理 |
清微智能 TX510 | 不支持 | 不支持 | 不支持 | 1.2 TOPS | 9.6 TOPS | Binary | 5.6(INT8) | 专用框架(如 TXDNN) | 边缘计算、智能安防、机器人 |
天数智芯 天垓 100 | 128 TFLOPS | 256 TFLOPS | 256 TFLOPS | 512 TOPS | 1024 TOPS | FP64 | 1.25(INT8) | TensorFlow、PyTorch、CUDA 生态 | 训练 / 推理、科学计算、工业仿真 |
摩尔线程 MTT S80 | 14.4 TFLOPS | 28.8 TFLOPS | 28.8 TFLOPS | 57.6 TOPS | 115.2 TOPS | FP64 | 1.0(INT8) | TensorFlow、PyTorch、DirectML | 轻量级训练、游戏渲染、边缘推理 |
沐曦 C500 | 15 TFLOPS | 184.6 TFLOPS | 184.6 TFLOPS | 362.1 TOPS | 724.2 TOPS | FP64 | 1.2(INT8) | CUDA 兼容、PyTorch、TensorFlow | 云边协同、AI 推理、图形渲染 |
景嘉微 JM9 | 32 TFLOPS | 64 TFLOPS | 64 TFLOPS | 128 TOPS | 256 TOPS | FP64 | 1.0(INT8) | 专用框架(如 JMFramework) | 图形渲染、军工、航空航天 |
关键说明与选型建议
- 精度定义与适用场景
- FP32:单精度浮点,适用于科学计算、金融建模等高精度场景(如气象预测、石油勘探)。
- FP16:半精度浮点,适合深度学习训练(如大模型训练、图像识别)。
- BF16:脑浮点,平衡数值范围与精度,专用于大模型训练(如 GPT-4、BERT)。
- INT8:8 位整数,优化推理能效,适合实时高并发任务(如智能安防、语音识别)。
- INT4:4 位整数,进一步压缩能耗,适配边缘端低功耗设备(如智能门锁、机器人)。
- 性能与能效比
- 训练性能:
- 壁仞 BR100 以 1024 TFLOPS(BF16) 领先,支持千亿参数模型训练。
- 华为昇腾 910B 以 320 TFLOPS(FP16) 适配大模型训练,性能接近英伟达 A800 的 80%。
- 推理能效:
- 清微智能 TX510 以 5.6 TOPS/W(INT8) 为边缘端最优,功耗仅 400mW。
- 壁仞 BR100 以 4096 TOPS(INT4) 支持高并发推理,能效比达 1.6 TOPS/W。
- 软件生态与兼容性
- 华为昇腾:全栈生态闭环,支持 MindSpore 框架与 CANN 工具链,适配国产大模型(如 DeepSeek)。
- 壁仞 / 燧原:兼容 CUDA 生态,可直接迁移英伟达 GPU 代码,降低开发门槛。
- 清微智能:依赖专用框架(如 TXDNN),灵活性较低,但支持多模态算法(如 3D 活体检测)。
- 特殊场景需求
- 科学计算:
- 海光深算二号 支持 FP64 双精度计算,适合气象预测、量子模拟。
- 天数智芯 天垓 100 支持 FP64 与 BF16 混合精度,适配工业仿真。
- 边缘计算:
- 清微智能 TX510 集成 ISP 与编解码器,支持 3D 结构光,适配智能门锁、安防摄像头。
- 摩尔线程 MTT S80 支持 DirectML,适合轻量级 AI 推理与游戏渲染。
- 国产替代与政策支持
- 华为昇腾、寒武纪 入选国家信创目录,享受地方算力券补贴(如北京市最高 50% 补贴)。
- 海光信息 兼容 CUDA 生态,适合传统企业快速迁移英伟达模型。
综合对比与趋势分析
维度 | 领先厂商 | 核心优势 | 挑战 |
训练性能 | 壁仞 BR100、华为昇腾 910B | BF16/FP16 算力达 Peta 级别,支持千卡集群训练 | 生态成熟度待验证(壁仞)、依赖自研框架(昇腾) |
推理能效 | 清微智能 TX510、壁仞 BR100 | INT8/INT4 能效比超 5 TOPS/W,适配边缘与云端推理 | 专用框架(清微)、硬件性能未公开(壁仞) |
科学计算 | 海光深算二号、天数智芯 | 全精度浮点支持(FP64/FP32),适配超算与工业场景 | 大模型训练性能较弱(海光)、生态依赖英伟达(天数) |
生态兼容性 | 海光信息、壁仞科技 | CUDA 兼容,代码迁移成本低 | 性能差距(海光)、供货稳定性(壁仞) |
政策与信创 | 华为昇腾、寒武纪 | 国家信创目录认证,享受算力补贴 | 框架适配成本高(昇腾)、算子库较少(寒武纪) |
未来趋势
- 精度动态调整:
- 壁仞 BR100 支持 TF32+ 张量精度,可动态优化训练效率;沐曦 C500 支持 FP8,适配下一代大模型。
- 异构计算:
- 壁仞 HGCT 技术实现 “壁仞 + 英伟达 + 其他国产芯片” 混训,突破算力孤岛。
- 边缘端创新:
- 清微智能可重构架构支持 INT4+Binarized 混合精度,进一步降低边缘设备功耗。
选型建议
- 大模型训练:壁仞 BR100(BF16 1024 TFLOPS)或 华为昇腾 910B(政策支持)。
- 云端推理:壁仞 BR100(INT8 2048 TOPS)或 燧原邃思 2.0(性价比高)。
- 边缘计算:清微智能 TX510(能效比 5.6 TOPS/W)或 摩尔线程 MTT S80(图形与 AI 融合)。
- 科学计算:海光深算二号(FP64 11.5 TFLOPS)或 天数智芯 天垓 100(混合精度)。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/aigc/315777.html