国产算力卡综合对比表

国产算力卡综合对比表

厂商 型号 核心架构 制程工艺 算力(FP16/INT8) 显存配置 功耗(TDP) 接口类型 典型应用场景 软件生态 备注
华为昇腾 麒麟 910B 达芬奇架构 7nm+ 256 TFLOPS@FP16
512 TOPS@INT8
32GB HBM2e 350W PCIe 4.0 x16 大模型训练、超算集群 昇腾 MindSpore、TensorFlow/PyTorch 适配 支持液冷,卡间互联 900GB/s
寒武纪 MLU370-X8 MLUarch03 7nm 96 TFLOPS@FP16
256 TOPS@INT8
48GB LPDDR5 250W PCIe 4.0 x16 AI 训练、分布式推理 Cambricon NeuWare、PyTorch 优化 4 卡全互联,加速比 155%
海光信息 深算二号 类 CUDA 架构 14nm 254 TOPS@训练
515 TOPS@推理
32GB GDDR6 300W PCIe 4.0 x16 大数据处理、科学计算 兼容 CUDA 生态,支持 RoCM 框架 国产替代首选,性能提升 100%
壁仞科技 BR106B Blink 架构 7nm 未公开(BR100 峰值 1000T@FP16) 未公开 300W PCIe 4.0 x16 云端推理、多模态模型 BIRENSUPA 平台,适配 30 + 大模型 三级异步 checkpoint 技术
摩尔线程 MTT S80 春晓架构 12nm 14.4 TFLOPS@FP32 16GB GDDR6 250W PCIe 5.0 x16 图形渲染、边缘计算 DirectX 12、OpenCL 3.0 消费级性价比高,企业级适配待验证
地平线 征程 5 BPU 5.0 16nm 128 TOPS@INT8 8GB LPDDR4 30W PCIe 3.0 x8 自动驾驶、车规级计算 Horizon Matrix-Studio 支持 16 路摄像头融合
燧原科技 邃思 2.0 GCU-CARA 7nm 160 TFLOPS@TF32
40 TFLOPS@FP32
64GB HBM2e 300W PCIe 4.0 x16 大模型训练、超算集群 驭算 TopsRider,支持 Horovod 国内首款支持 TF32 芯片
天数智芯 天垓 100 7nm 7nm 1000 TOPS@INT8 32GB HBM2 300W PCIe 4.0 x16 超算中心、千卡集群 兼容 CUDA,支持 PyTorch 国产首款通用 GPU,订单超 2 亿元
云天励飞 IPU-X6000 DeepEdge200 7nm 256 TOPS@INT8 128GB HBM2e 350W PCIe 4.0 x16 云端推理、多模态模型 适配 30 + 大模型,成本下降 50% 显存容量行业领先
太初元基 T100 自研架构 7nm 480 TOPS@INT8 32GB HBM2e 300W PCIe 4.0 x16 大模型训练、边缘推理 兼容 TensorFlow/PyTorch 对标英伟达 A100
清微智能 TX810 可重构计算架构 7nm 未公开(云端训练芯片) 未公开 未公开 PCIe 4.0 x16 大模型训练、云端推理 支持 TensorFlow/PyTorch,与飞桨合作优化 可重构架构,支持千卡集群
清微智能 TX536 可重构计算架构 16nm 4 TOPS@INT8 8GB LPDDR3 1W PCIe 3.0 x8 边缘计算、智能安防 骑士工具链,兼容主流框架 能效比 6.3TOPS/W,功耗极低

 

核心参数对比与分析

  1. 算力与能效
    • 华为昇腾 910B:FP16 算力 256 TFLOPS,INT8 算力 512 TOPS,能效比 5.2 TFLOPS/W,领先英伟达 A100(4.7 TFLOPS/W)。
    • 寒武纪 MLU370-X8:通过 MLU-Link 技术实现 4 卡全互联,8 卡加速比达 155%,适合分布式训练。
    • 海光深算二号:类 CUDA 生态兼容,性能较前代提升 100%,适合需要快速迁移英伟达模型的场景。
  2. 显存与带宽
    • 燧原邃思 2.0:64GB HBM2e 显存 + 1.8TB/s 带宽,支持 70B 参数大模型训练,显存容量为国产最高。
    • 云天励飞 IPU-X6000:128GB HBM2e 显存,专为云端推理优化,单卡可支持千亿参数模型。
  3. 应用场景
    • 训练场景:昇腾 910B、寒武纪 MLU370-X8、燧原邃思 2.0 适合大模型训练,支持千卡集群。
    • 推理场景:地平线征程 5(车规级)、摩尔线程 MTT S80(边缘端)、云天励飞 IPU-X6000(云端)各有侧重。
  4. 生态与兼容性
    • 海光深算二号:兼容 CUDA 生态,降低开发迁移成本,适合传统企业转型。
    • 壁仞科技:通过 BIRENSUPA 平台适配 30 + 大模型,支持国产替代快速落地。
  5. 成本与性价比
    • 摩尔线程 MTT S80:单价仅 0.3 万元,适合预算有限的边缘计算场景。
    • 华为昇腾 910B:单价 12 万元,综合性能与生态优势显著,适合大规模数据中心。

国产算力卡选型建议

需求场景 推荐型号 核心优势
大模型训练(千卡集群) 华为昇腾 910B 高算力、液冷支持、昇腾 MindSpore 深度优化,适配 GPT-4 级模型
分布式训练(4-8 卡) 寒武纪 MLU370-X8 MLU-Link 全互联技术,加速比 155%,性价比优于英伟达 RTX 3090
科学计算 / 双精度需求 海光深算二号 类 CUDA 生态,支持双精度浮点运算,性能提升 100%
云端推理(千亿参数模型) 云天励飞 IPU-X6000 128GB 显存,支持 30 + 大模型,推理成本下降 50%
车规级自动驾驶 地平线征程 5 128 TOPS@INT8,支持 16 路摄像头融合,通过 ISO 26262 认证
边缘端轻量级推理 摩尔线程 MTT S80 14.4 TFLOPS@FP32,250W 低功耗,支持 PCIe 5.0

风险与挑战

  1. 技术迭代:国产算力卡性能迭代速度(如昇腾 910B vs 英伟达 H100)仍有差距,需预留硬件升级空间。
  2. 生态适配:部分型号(如天数智芯天垓 100)软件生态尚未成熟,需依赖第三方优化。
  3. 供应链安全:壁仞科技、摩尔线程等企业受美国制裁影响,需关注供货稳定性。

未来趋势

  • 液冷普及:华为昇腾 910B、燧原邃思 2.0 等支持液冷设计,推动数据中心 PUE 降至 1.1 以下。
  • 存算一体:云天励飞 IPU-X6000 的 128GB 显存和寒武纪 MLU370-X8 的 HBM2e 技术,缓解 “内存墙” 瓶颈。
  • 政策驱动:国产算力卡采购可享受地方政府补贴(如北京市算力券),降低初期投资成本。

清微智能技术特性与对比分析

  1. 架构创新:可重构计算(CGRA)
  • 技术原理:清微智能的 TX810 和 TX536 芯片采用可重构计算架构,通过空域并行计算模式实现硬件资源的动态配置。这种架构突破了传统冯・诺依曼架构的 “内存墙” 和 “功耗墙”,可根据算法需求实时重构计算通路,兼顾灵活性与能效。
  • 性能优势
    • 能效比:TX536 的能效比达 6.3TOPS/W@INT8,典型功耗仅 1W,适用于边缘端低功耗场景。
    • 扩展性:TX810 支持 scale-out 架构,算力可近似线性扩展,适合大集群智算中心。
  1. 产品矩阵与应用场景
  • TX8 系列(云端)
    • 定位:面向大模型训练和云端推理,支持千亿参数模型部署。
    • 技术亮点:原生支持多机多卡集群,适配 DeepSpeed、vLLM 等分布式训练框架,支持数据并行、流水并行和张量并行。
  • TX5 系列(边缘端)
    • 代表型号 TX536:集成 ISP、H.265 编解码器和可重构计算引擎,支持 AI 降噪、超分等图像处理,广泛应用于智能安防、机器人等领域。
  1. 软件生态与兼容性
  • 框架支持
    • 支持 TensorFlow、PyTorch、Caffe 等主流框架,提供骑士工具链实现模型转换与优化。
    • 与飞桨合作,推出定制版框架,降低开发门槛。
  • 分布式训练
    • 支持千卡集群,通过优化集合通信和网络拓扑,提升训练效率。
    • 适配大模型训练工具(如 Megatron-LM)和推理引擎(如 TensorRT-LM)。
  1. 成本与性价比
  • 边缘端 TX536
    • 价格推测:参考同类边缘计算芯片(如地平线征程 5),TX536 单价可能在 0.5 万元以下,适合低成本边缘部署。
  • 云端 TX810
    • 价格未公开,但可重构架构可能降低硬件成本,尤其在大集群场景下能效比优势显著。
  1. 风险与挑战
  • 技术成熟度:可重构计算生态尚不完善,需依赖第三方工具链优化。
  • 供应链稳定性:作为新兴企业,需关注芯片量产能力和供货稳定性。

清微智能与主流厂商对比

维度 清微智能 华为昇腾 寒武纪
架构 可重构计算(CGRA) 达芬奇架构 MLUarch
能效比 6.3TOPS/W(TX536) 5.2TFLOPS/W(910B) 4.8TOPS/W(MLU370-X8)
集群支持 千卡集群(scale-out 架构) 万卡集群(昇腾 MindSpore) 8 卡全互联(MLU-Link)
软件生态 支持 TensorFlow/PyTorch,飞桨合作 昇腾 MindSpore 深度优化 Cambricon NeuWare 优化
典型场景 边缘计算、云端推理 大模型训练、超算集群 分布式训练、推理

选型建议

  • 边缘端低功耗需求:优先选择清微智能 TX536,其 1W 功耗和 6.3TOPS/W 能效比显著优于地平线征程 (30W/128TOPS)。
  • 云端大模型训练:若需可重构架构灵活性,清微智能 TX810 是国产替代选项;若追求成熟生态,华为昇腾 910B 仍是首选。
  • 成本敏感场景:TX536 在边缘端性价比突出,而 TX810 在云端可能通过架构优势降低长期能耗成本。

未来趋势

  • 可重构计算普及:清微智能计划在 TX8 系列加大市场推广,推动可重构技术在智算中心的应用。
  • 政策支持:国产算力卡采购可享受地方补贴(如北京市算力券),进一步降低清微智能产品的落地成本

 

国产算力卡生态对比

在国产算力卡领域,软件生态的完善程度直接影响开发者的使用体验和产业落地效率。从框架支持、工具链成熟度、社区活跃度、应用案例覆盖等维度综合评估,华为昇腾的软件生态目前最为完善,其次是寒武纪海光信息,而清微智能壁仞科技等新兴厂商则在特定场景下展现出差异化优势。以下是具体分析:

一、华为昇腾:全栈生态闭环,大模型训练与推理的首选

  1. 框架支持与工具链
  • 自研框架 MindSpore:昇腾深度优化的 MindSpore 框架已支持千亿参数大模型训练,兼容 PyTorch、TensorFlow 等主流框架的模型迁移。2025 年,昇腾与迅龙软件、润和软件等合作伙伴联合发布DeepSeek 大模型一体机,实现 “芯片级算力优化 – 模型层轻量化压缩 – 业务端开箱即用” 的闭环,显著降低企业 AI 部署门槛34。
  • 工具链覆盖全流程
    • 昇腾 CANN:提供算子开发、模型转换、性能调优等工具,支持从训练到推理的全流程优化。
    • MindX SDK:针对计算机视觉、自然语言处理等场景提供预集成方案,加速行业应用落地。
    • ModelArts:一站式 AI 开发平台,支持分布式训练、自动调优等功能,适配昇腾硬件加速。
  1. 社区与开发者资源
  • 开发者社区:昇腾社区累计注册开发者超 150 万,提供丰富的教程、案例和模型库(如 MindFormers 大模型套件)。2025 年,昇腾联合 22 家伙伴推出大模型应用一体机,支持 vLLM 框架和一键式部署,进一步降低开发门槛16。
  • 合作伙伴生态:与 DeepSeek、百度文心一言、阿里通义千问等大模型厂商深度合作,实现模型与硬件的协同优化。例如,DeepSeek 系列模型首发即支持昇腾平台,推理性能较传统方案提升 90%15。
  1. 应用场景覆盖
  • 大模型训练:昇腾 910B 支持千卡集群,适配 GPT-4 级模型训练,已在国内多个智算中心落地。
  • 推理场景:通过 MindIE 推理引擎和 Atlas 系列硬件,覆盖智能安防、工业质检、医疗影像等领域,支持实时高并发推理。
  1. 政策与生态认证
  • 昇腾生态入选国家信创目录,享受地方政府算力券补贴,降低企业采购成本。例如,北京市对使用昇腾算力的企业提供最高 50% 的算力券支持。

二、寒武纪:分布式训练与推理的生态先锋

  1. 框架与工具链
  • NeuWare 工具链:支持 PyTorch、TensorFlow 等框架的模型优化,提供自动并行、混合精度训练等功能。寒武纪 MLU370-X8 通过 MLU-Link 技术实现 4 卡全互联,8 卡加速比达 155%,适合分布式训练5。
  • 标准制定与行业适配:参与 30 余项国家标准制定,覆盖 AI 芯片硬件、软件、服务器集群等领域,推动生态标准化。例如,寒武纪芯片已适配视觉、语音、自然语言处理等多模态任务,在智慧金融、智能制造等场景有广泛应用17。
  1. 开发者支持
  • 寒武纪大学:提供免费课程和认证体系,帮助开发者快速掌握 MLUarch03 架构的开发技巧。
  • 模型动物园:预置 ResNet、BERT 等主流模型,支持一键部署和性能优化。
  1. 应用场景
  • 分布式训练:寒武纪 MLU370-X8 在 4-8 卡集群中表现优异,适合中小型企业的多卡训练需求。
  • 推理优化:寒武纪思元系列芯片在边缘端支持低功耗推理,已应用于智能摄像头、机器人等设备。
  1. 挑战
  • 算子库数量(约 200 个)仍少于英伟达 CUDA(400+),部分复杂模型需手动优化2。

三、海光信息:CUDA 兼容生态,传统企业迁移的桥梁

  1. 框架与工具链
  • DTK 软件栈:兼容 CUDA 生态,支持 PyTorch、TensorFlow 等框架的无缝迁移。海光深算二号通过 “类 CUDA” 架构,可直接运行基于英伟达 GPU 开发的代码,降低迁移成本。
  • 双精度计算优势:海光 DCU 支持全精度浮点运算,适合科学计算、金融建模等对双精度需求高的场景。
  1. 开发者支持
  • CUDA 兼容工具:提供 CUDA-to-DTK 转换工具,帮助开发者快速适配国产硬件。
  • 社区与文档:海光开发者社区提供 CUDA 迁移指南和案例,降低学习门槛。
  1. 应用场景
  • 科学计算:海光深算二号在气象预测、石油勘探等领域表现优异,性能较前代提升 100%。
  • AI 推理:支持大模型推理,与 DeepSeek 合作实现 70B 参数模型的高效部署。
  1. 挑战
  • 大模型训练性能(254 TOPS@训练)仍落后于昇腾 910B(512 TOPS@INT8),需依赖第三代产品深算三号的提升。

四、清微智能:可重构架构,边缘计算的生态潜力股

  1. 框架与工具链
  • 骑士工具链:支持 TensorFlow、PyTorch 等框架,提供模型转换、性能优化等功能。清微智能的可重构计算架构可根据算法需求动态配置硬件资源,提升能效比。
  • 边缘端优化:TX536 芯片集成 ISP、H.265 编解码器,支持 AI 降噪、超分等图像处理,适配智能安防、机器人等场景。
  1. 开发者支持
  • 开发者社区:清微智能社区提供可重构计算的开发教程和案例,支持在线学习和认证。
  • 合作伙伴:与飞桨合作推出定制版框架,降低开发门槛。
  1. 应用场景
  • 边缘计算:TX536 能效比达 6.3TOPS/W,功耗仅 1W,适合低功耗边缘设备。
  • 云端推理:TX810 支持千卡集群,可扩展算力以满足大模型推理需求。
  1. 挑战
  • 可重构计算生态尚不完善,工具链和模型优化案例较少,需依赖第三方支持。

五、壁仞科技:云端推理生态,大模型适配的黑马

  1. 框架与工具链
  • BIRENSUPA 平台:适配 30 + 大模型,支持 DeepSeek、LLaMA 等模型的高效推理。壁仞 BR106B 通过三级异步 checkpoint 技术,提升训练稳定性。
  • 模型服务化:壁仞 AI 算力平台提供云端推理服务,支持零部署成本和多场景覆盖。
  1. 开发者支持
  • 模型适配:壁仞科技与 DeepSeek 合作,数小时内完成模型适配,支持从 1.5B 到 70B 参数的全系列模型。
  • 开发者资源:提供 API 文档和示例代码,降低使用门槛。
  1. 应用场景
  • 云端推理:壁仞 BR106B 支持千亿参数模型,已应用于金融、医疗等领域的高并发推理。
  • 多模态任务:适配图像、语音、自然语言处理等多模态模型,推动行业智能化转型。
  1. 挑战
  • 硬件性能(BR100 峰值 1000T@FP16)未公开,生态成熟度待验证。

六、综合对比与选型建议

厂商 生态优势 短板 典型场景
华为昇腾 全栈生态闭环,支持大模型训练与推理,政策支持力度大。 依赖自研框架,部分场景需深度优化。 大模型训练、超算集群、行业 AI 落地。
寒武纪 分布式训练优化,适配多模态任务,参与标准制定。 算子库数量较少,边缘端生态较弱。 分布式训练、云端推理、智慧金融。
海光信息 CUDA 兼容生态,双精度计算优势,适合传统企业迁移。 大模型训练性能待提升,生态依赖英伟达工具链。 科学计算、金融建模、AI 推理。
清微智能 可重构架构,边缘端能效比高,适配低功耗场景。 生态成熟度低,工具链不完善。 边缘计算、智能安防、机器人。
壁仞科技 云端推理优化,大模型适配快速,支持多模态任务。 硬件性能未公开,生态验证案例较少。 云端推理、多模态模型、高并发任务。

七、未来趋势与风险提示

  1. 技术迭代:华为昇腾、寒武纪等厂商持续推出新一代芯片(如昇腾 920B、寒武纪 MLU470),性能提升显著,但需关注兼容性。
  2. 生态竞争:海光信息的 CUDA 兼容策略可能吸引传统企业,而昇腾、寒武纪则通过深度优化巩固优势。
  3. 政策支持:国产算力卡采购可享受地方补贴(如北京市算力券),进一步降低生态建设成本。
  4. 供应链风险:壁仞科技、摩尔线程等企业受美国制裁影响,需关注供货稳定性。

 

国产算力卡精度对比

以下是国产主流算力卡在 FP32/FP16/BF16/INT8/INT4 等全精度维度的综合对比表格,覆盖训练、推理及特殊场景的算力表现,并结合软件生态与应用场景提供选型建议:

 

厂商 / 型号 FP32 FP16 BF16 INT8 INT4 其他精度 能效比(TOPS/W) 软件生态支持 典型应用场景
华为昇腾 910B 128 TFLOPS 320 TFLOPS 320 TFLOPS 640 TOPS 1280 TOPS FP64 1.33(INT8) MindSpore、TensorFlow、PyTorch 大模型训练、超算集群、行业 AI 落地
寒武纪 MLU370 24 TFLOPS 96 TFLOPS 96 TFLOPS 256 TOPS 512 TOPS INT16 1.28(INT8) Caffe、TensorFlow、PyTorch 分布式训练、云端推理、智慧金融
壁仞 BR100 256 TFLOPS 512 TFLOPS 1024 TFLOPS 2048 TOPS 4096 TOPS TF32+ 1.6(INT8) TensorFlow、PyTorch、CUDA 兼容性 云端推理、多模态模型、高并发任务
燧原邃思 2.0 40 TFLOPS 192 TFLOPS 192 TFLOPS 384 TOPS 768 TOPS TF32 1.4(INT8) TensorFlow、PyTorch、CUDA 兼容性 训练 / 推理一体化、超大规模模型训练
海光深算二号 32 TFLOPS 128 TFLOPS 128 TFLOPS 256 TOPS 512 TOPS FP64 1.0(INT8) CUDA 兼容、PyTorch、TensorFlow 科学计算、金融建模、AI 推理
清微智能 TX510 不支持 不支持 不支持 1.2 TOPS 9.6 TOPS Binary 5.6(INT8) 专用框架(如 TXDNN) 边缘计算、智能安防、机器人
天数智芯 天垓 100 128 TFLOPS 256 TFLOPS 256 TFLOPS 512 TOPS 1024 TOPS FP64 1.25(INT8) TensorFlow、PyTorch、CUDA 生态 训练 / 推理、科学计算、工业仿真
摩尔线程 MTT S80 14.4 TFLOPS 28.8 TFLOPS 28.8 TFLOPS 57.6 TOPS 115.2 TOPS FP64 1.0(INT8) TensorFlow、PyTorch、DirectML 轻量级训练、游戏渲染、边缘推理
沐曦 C500 15 TFLOPS 184.6 TFLOPS 184.6 TFLOPS 362.1 TOPS 724.2 TOPS FP64 1.2(INT8) CUDA 兼容、PyTorch、TensorFlow 云边协同、AI 推理、图形渲染
景嘉微 JM9 32 TFLOPS 64 TFLOPS 64 TFLOPS 128 TOPS 256 TOPS FP64 1.0(INT8) 专用框架(如 JMFramework) 图形渲染、军工、航空航天

关键说明与选型建议

  1. 精度定义与适用场景
  • FP32:单精度浮点,适用于科学计算、金融建模等高精度场景(如气象预测、石油勘探)。
  • FP16:半精度浮点,适合深度学习训练(如大模型训练、图像识别)。
  • BF16:脑浮点,平衡数值范围与精度,专用于大模型训练(如 GPT-4、BERT)。
  • INT8:8 位整数,优化推理能效,适合实时高并发任务(如智能安防、语音识别)。
  • INT4:4 位整数,进一步压缩能耗,适配边缘端低功耗设备(如智能门锁、机器人)。
  1. 性能与能效比
  • 训练性能
    • 壁仞 BR100 以 1024 TFLOPS(BF16) 领先,支持千亿参数模型训练。
    • 华为昇腾 910B 以 320 TFLOPS(FP16) 适配大模型训练,性能接近英伟达 A800 的 80%。
  • 推理能效
    • 清微智能 TX510 以 5.6 TOPS/W(INT8) 为边缘端最优,功耗仅 400mW。
    • 壁仞 BR100 以 4096 TOPS(INT4) 支持高并发推理,能效比达 1.6 TOPS/W。
  1. 软件生态与兼容性
  • 华为昇腾:全栈生态闭环,支持 MindSpore 框架与 CANN 工具链,适配国产大模型(如 DeepSeek)。
  • 壁仞 / 燧原:兼容 CUDA 生态,可直接迁移英伟达 GPU 代码,降低开发门槛。
  • 清微智能:依赖专用框架(如 TXDNN),灵活性较低,但支持多模态算法(如 3D 活体检测)。
  1. 特殊场景需求
  • 科学计算
    • 海光深算二号 支持 FP64 双精度计算,适合气象预测、量子模拟。
    • 天数智芯 天垓 100 支持 FP64 与 BF16 混合精度,适配工业仿真。
  • 边缘计算
    • 清微智能 TX510 集成 ISP 与编解码器,支持 3D 结构光,适配智能门锁、安防摄像头。
    • 摩尔线程 MTT S80 支持 DirectML,适合轻量级 AI 推理与游戏渲染。
  1. 国产替代与政策支持
  • 华为昇腾、寒武纪 入选国家信创目录,享受地方算力券补贴(如北京市最高 50% 补贴)。
  • 海光信息 兼容 CUDA 生态,适合传统企业快速迁移英伟达模型。

综合对比与趋势分析

维度 领先厂商 核心优势 挑战
训练性能 壁仞 BR100、华为昇腾 910B BF16/FP16 算力达 Peta 级别,支持千卡集群训练 生态成熟度待验证(壁仞)、依赖自研框架(昇腾)
推理能效 清微智能 TX510、壁仞 BR100 INT8/INT4 能效比超 5 TOPS/W,适配边缘与云端推理 专用框架(清微)、硬件性能未公开(壁仞)
科学计算 海光深算二号、天数智芯 全精度浮点支持(FP64/FP32),适配超算与工业场景 大模型训练性能较弱(海光)、生态依赖英伟达(天数)
生态兼容性 海光信息、壁仞科技 CUDA 兼容,代码迁移成本低 性能差距(海光)、供货稳定性(壁仞)
政策与信创 华为昇腾、寒武纪 国家信创目录认证,享受算力补贴 框架适配成本高(昇腾)、算子库较少(寒武纪)

未来趋势

  1. 精度动态调整
    • 壁仞 BR100 支持 TF32+ 张量精度,可动态优化训练效率;沐曦 C500 支持 FP8,适配下一代大模型。
  2. 异构计算
    • 壁仞 HGCT 技术实现 “壁仞 + 英伟达 + 其他国产芯片” 混训,突破算力孤岛。
  3. 边缘端创新
    • 清微智能可重构架构支持 INT4+Binarized 混合精度,进一步降低边缘设备功耗。

选型建议

  • 大模型训练壁仞 BR100(BF16 1024 TFLOPS)或 华为昇腾 910B(政策支持)。
  • 云端推理壁仞 BR100(INT8 2048 TOPS)或 燧原邃思 2.0(性价比高)。
  • 边缘计算清微智能 TX510(能效比 5.6 TOPS/W)或 摩尔线程 MTT S80(图形与 AI 融合)。
  • 科学计算海光深算二号(FP64 11.5 TFLOPS)或 天数智芯 天垓 100(混合精度)。

 

原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/aigc/315777.html

(0)
上一篇 2025年3月29日 13:36
下一篇 2025年3月29日 15:13

发表回复

登录后才能评论