英特尔Ponte Vecchio早期芯片或以1.37GHz频率达成45 TFLOPs性能

1.jpg

(图 via TechPowerUp

如此耀眼的成绩,已经超越了英伟达 Ampere A100 Tensor Core 40GB 竞品所宣传的 19.5 TFLOPs,此外 AMD Instinct MI100 计算卡也仅提供了 23.1 TFLOPs 的 FP32 性能。

2.jpg

“A0”版本应该是首批从代工厂流片回来的 Ponte Vecchio 原型,且英特尔内部应该正在通过严格的 NDA 协议,来下发给 ISV 与行业合作伙伴。

3.jpg

通常情况下,芯片制造商只会将时钟速率明显低于最终性能的原型交付给 ISV,以便其充分测试相关功能和开发特定的软件。

4.jpg

参考英特尔在演示文稿中提到的数据,OAM 封装的每时钟周期 FP32 吞吐量为 32768 ops,且单个封装中的两个堆栈相当于 128 个 Xe 核心。

5.jpg

每个 Xe HPC 的核心矢量引擎,可在单个时钟周期内提供 256 次 FP32 操作,那样单封装(双堆栈)的总和为 32468 FP32 ops/clock,约等于 1373MHz 。

6.jpg

不过随着后续的生产迭代,我们有望看到更高的始终速率、以及吞吐量的线性扩展。不过考虑到芯片的庞大尺寸和功率消耗(传闻为 600W),最终运行频率卡在 1.37GHz 也不是不可能。

7.jpg

在用功耗换性能的情况下,英特尔甚至会要求厂商为 OAM 搭配高性能的水冷散热方案。至于其能否在 HPC 市场获得充分的认可,仍有待时间去检验。

8.jpg

访问购买页面:

英特尔旗舰店

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/industrynews/99690.html

(0)
上一篇 2021年8月21日 14:10
下一篇 2021年8月21日 14:17

相关推荐

发表回复

登录后才能评论