雷锋网(公众号:雷锋网)按:对于一个季度利润收入只有英特尔一天利润的AMD而言,能够分食利润丰厚的服务器芯片市场意义重大。但在英特尔与AMD的竞争中,AMD大部分时候都处于下风,但情况或将发生改变。美国时间8月7日,AMD CEO 苏姿丰博士发布了第二代霄龙(EPYC)7002系列(代号Rome)。新处理器创下80项世界纪录,可以被称为史上最强x86处理器。从目前的信息看,基于Zen2架构的的第二代EPYC处理器罗马无论从架构、性能、安全性方面相比英特尔至强可扩展处理器都有不错的表现。
AMD发布其第一款7纳米处理器,也标志着AMD在与英特尔的竞争中,第一次夺得制程优势,这一优势不容小觑。由于台积电的7nm工艺与AMD的Zen 2微架构相结合,AMD的EPYC罗马处理器在很大程度上被认为是一个转折点,使其能够从英特尔市占率高达95%的数据中心市场中脱颖而出。
即使只获得20%的服务器市场份额,也会对长期处于劣势的AMD产生真正的变革性影响。如果你知道英特尔一天产生的利润就超过AMD在整个季度产生的利润,就可以感觉到AMD似乎已经克服了难以逾越的困难。
AMD EPYC罗马(Rome)处理器的首次亮相不仅标志着该公司数年提出的大赌注、精明的市场策略和巧妙的工程设计,也标志着半导体历史上最大一次动荡的开始。
与往常一样,这一切都始于芯片,但要获得数据中心还需要多方面的努力,如操作系统和软件优化、与OEM的关系,以及建立强大的硬件生态系统。这对于像Zen这样全新而独特的架构而言,难度是双重的。
AMD第一代EPYC Naples(那不勒斯)处理器让业界熟悉新的Zen微体系结构,虽然有一些优于英特尔Xeon处理器的优势,但大的转变需要时间,Naples缺乏一个杀手级的特性,刺激行业转向AMD。特别是在采用新架构方面非常保守的行业。
Naples处理器于2017年首次亮相后,AMD不得不做出重大决策:可以将EPYC转移到比其桌面芯片更快更高效的12nm工艺,或者直接转向7nm工艺。
AMD选择了向7nm工艺迈进,为其提供了一个杀手级功能,为密度和功耗的根本改进奠定了基础。
7nm工艺相比英特尔的14nm工艺拥有密度优势,相当于更多的核心数量。它还带来了功耗优势,每瓦特耗电可以完成更多工作(数据中心的关键考虑因素),还有更高的时钟频率,更大的缓存和极具竞争力的价格。与基于小芯片(chiplet)设计的成本和产量优势相结合,改进的Zen 2架构使每周期(IPC)指令吞吐量提升约15%,快速转向PCIe 4.0,行业领先的内存通道和x86处理器的吞吐量,EPYC不再被视为英特尔的“替代品”。现在,它的特性被认为能吸引行业巨头的,正如在HPC和超级计算机中使用了罗马处理器一样。
如今,AMD这么做背后的理由变得清晰,AMD的合作伙伴将发布80项世界纪录,这是AMD数据中心处理器的最高世界纪录。令人印象深刻的是,这些记录在很多实际工作负载中都有40-50%到80%不等的提升。性能提升来自四倍的浮点性能和更大的L3缓存,这些缓存也有助于提升AI/ML工作负载,还有领先的I/O功能,可为GPU加速器提供双倍的吞吐量(更不用说为每台服务器支持更多的加速器)。增加PCIe 4.0也有利于存储设备,特别是主存储器。
桌面PC市场吸引了大量的关注,看看围绕Ryzen 3000发布的报道就可以知道,但毫无疑问,数据中心能够带来丰厚的利润。
如果AMD要赢得与英特尔的更大战争,它必须赢得数据中心之战。但英特尔并不只是坐视不管。让我们来看看未来几年数据中心的大战。
AMD EPYC罗马处理器
EPYC Rome 处理器采用独特的架构,有8个7nm计算芯片,每个计算芯片有8个内核,通过Infinity Fabric连接到内置12nm I/O的芯片,这个芯片内置存储器和PCIe控制器。AMD针对每种特定型号定制计算小芯片的数量和核心数量。
来源:Tom's Hardware
处理器使用Socket SP3(FCLGA 4094)接口,可向后兼容Naples平台,虽然失去了PCIe 4.0连接,并且兼容下一代EPYC Milan(米兰)型号。定制平台可以通过巧妙的配置技巧向用户提供多达162个PCIe 4.0通道,而大多数情况使用128个通道。
AMD继续为双插槽服务器(2P)提供特定型号处理器,并为单插槽服务器提供产品(用“P”后缀表示)。
罗马的核心数量从8核16线程到x86领先的64核和128线程。我们通常期望随着核心数量/ TDP的上升,turbo频率会下降,就像我们在罗马的基本时钟看到的那样,但AMD仍然看好这一趋势。实际上,它的最高核心数型号具有最高的超频频率。
基本时钟速度范围为2.0 GHz至3.2 GHz,而超频频率范围为3.0 GHz至3.4 GHz,与Naples的前辈相比,峰值频率有了的全面改善。考虑到某些型号的核心数量是两倍,这令人印象深刻,AMD表示,基础频率的提升应该会抵消英特尔单核心的一些性能优势。
AMD的功耗感知超频算法还支持多核高频,EPYC 7742在所有内核加载时能够维持3.2 GHz的高频率。与此同时,英特尔最大的通用Cascade Lake Xeon产品有28核和56线程,直到2020年上半年的某个时候才会改变,英特尔推出新的56核Cooper Lake型号。
所有罗马处理器都支持2TB内存,每台服务器最多4TB,分布在8个DDR4-3200通道上,这比Xeon的6个DDR4-2933通道有了显著改进。罗马的八个内存通道引起了人们对每个内核内存吞吐量的担忧,但AMD声称性能可以随着内核数量的增加而扩展,甚至可以扩展到两个插槽。英特尔预计在明年会支持8个DDR4通道,在推出14nm Cooper Lake芯片时。
罗马为所有型号提供128通道PCIe 4.0,包括单插槽型号,最多可以达到162个通道。值得注意的是,单插槽和双插槽服务器都会向用户开放128/162 PCIe 4.0通道。PCIe 4.0接口的吞吐量是PCIe 3.0的两倍,这是英特尔当前产品没有匹配的功能。据传英特尔将在其Ice Lake处理器上支持PCIe 4.0,但要到2020年第二季度出货,这会使得英特尔的高速I/O设备堆栈出现疲软,例如新的支持PCIe 4.0的GPU,网络和存储设备。
罗马的L3缓存有所不同,对于64核的型号,最高可达256MB。AMD还提供具有192MB或256MB L3缓存的48核型号以及具有64MB或128MB L3的32核型号,表明AMD具有针对特定工作负载量身定制更高性能型号的能力。最强大的罗马型号在双插槽型号中提供近半GB的L3缓存。
AMD将其罗马阵容分为五个不同的TDP,从120W到225W。这些TDP范围可以在SKU-by-SKU的基础上进行更改,使用户能够从每个型号中获得更高的性能,最高可达240 W的cTDP。较高的TDP通常需要定制平台,因此并非所有上一代服务器都能支持240W TDP。新的峰值TDP超越了上一代型号,但这是预期的,因为罗马的核心数量有高两倍增加。
AMD EPYC罗马定价
AMD尚未公布EPYC罗马阵容的官方定价,但Tom's Hardware的消息来源提供了以下数据。AMD的目标是在每个价位提供性能更高,更多内核,更大内存带宽和更多I/O的产品,也就是提供比英特尔更好的总体拥有成本。
虽然这不是对英特尔至强可扩展产品完整的对比,而且英特尔没有28核以上的产品与AMD竞争,但基本的情况仍然如此:AMD在每个细分市场提供更多核心和线程,L3缓存是英特尔的三倍,但单价更低。事实上,英特尔28核型号比AMD最强劲的64核128线程更昂贵。
AMD的TDP低于英特尔高核型号,但两家较少核心的产品,两家的TDP类似。值得注意的是,尽管AMD在其7nm芯片上具有强大的功能,但是大型12nm I / O芯片增加了一些功耗。与往常一样,TDP不是功耗的衡量标准,因此我们必须等待第三方的结果来衡量两个堆栈之间的相对功率效率。
AMD的处理器也不需要主机主板上的芯片组,主要是因为处理器本身提供了大量的PCIe 4.0通道。这降低了成本和平台功耗。
AMD EPYC罗马性能
AMD凭借7nm工艺,Zen 2架构增加了新功能,并显着提升了Zen微体系结构的性能,AMD还表示将在2021年推出了7nm +工艺的Zen 3微架构。
AMD称,相对Naples处理器,每插槽性能翻了一番,并且通过将256位AVX吞吐量翻倍,理论上使FLOPS(浮点)性能峰值翻了两番。罗马提供204GB / s的内存吞吐量,每个插槽最高支持4TB的RAM。PCIe 4.0提供512 GB /s的峰值I/O吞吐量。罗马是第一款支持PCIe 4.0的x86服务器处理器,尽管IBM的POWER架构已经支持更快的标准。
与拥有近百种不同SKU的英特尔Xeon不同,AMD已将其产品优化为4个泳道,分别为8,12 / 16,24 / 32和48/64核心段,总共19个SKU,分类不多。与英特尔不同,AMD不会缩减PCIe通道或内存速度/通道等功能,以区分其堆栈。
AMD声称配备64核型号的单插槽服务器可以胜过英特尔8280M以上的双插槽服务器。
AMD EPYC罗马安全性
AMD已在芯片中构建了Spectre v2缓解措施,从而降低对性能的影响。AMD还修补了IBRS和IBPB以及Spectre v4。对于去年出现的各种投机性执行漏洞,罗马也没有英特尔那么脆弱。罗马还支持安全内存加密功能。
AMD的信任之源来自一个安全的处理器,它使用独立的ISA运行单独的代码。这些芯片在内存控制器中也有一个AES-128引擎,密钥由安全处理器管理。因此,密钥与x86隔离。该芯片最多支持509密钥。SME可以防止物理内存攻击,可以在硬件或虚拟机管理程序级别完成。SEV建立在SME之上,让每个访客都拥有自己的密钥,只有安全处理器管理,才能将访客与虚拟机管理程序隔离开来。
AMD增加了x2APIC扩展以改进对高核心数量的支持,支持其内存带宽和L3缓存访问的服务质量机制,增加了对非易失性存储器的支持。
AMD EPYC 罗马Zen 2微体系结构
EPYC Rome使用与Ryzen 3000系列处理器相同的基础微体系结构,性能的改进,如每周期指令(IPC)吞吐量提升15%,是相同的。
7nm工艺作为基础,提供双倍密度,在任何给定功率点,高频可达1.25倍,或者可以调整为一半的功耗,具有与上一代型号相同的性能水平。
Zen2微体系结构是一个很好的改进,但高级别的改进包括一个新的TAGE分支预测器,作为基于感知器的预测单元的第二阶段的补充。该公司还将L3缓存容量增加了一倍,并转向了L1指令缓存的8路关联性,允许它减小L1缓存并使运行缓存加倍。
AMD始终支持256位AVX,但它需要将指令拆分为两个128位。对于Zen 2,AMD将数据路径宽度和向量寄存器文件加倍。对加载/存储单元的更改包括更大的存储阵列和更大的L2 DTLB块。AMD还将读取和写入宽度增加到256b,并使负载+存储带宽增加了两倍。
每个计算芯片(CCD)由两个标准的四核CCX组成,但现在它们配备了两倍的L3缓存,这有助于减少对主存储器的访问量。AMD还通过新的NUMA排列,有效减少内存延迟。
AMD EPYC罗马多芯片混合架构
和以前一样,罗马基于SoC设计,但该公司转向12nm I / O芯片,将八个计算芯片捆绑在一起。核心小芯片设计与消费级Ryzen 3000相似,基于小芯片的架构由于较小管芯的固有良率优势而提供成本优势。它还允许供应商在插槽中放置更多芯片,因为当计算内核分布在多个芯片上时,光罩限制不再适用。因此,AMD可以将最高达~1000平方毫米的单个封装中,这相当于一个封装中有320亿个晶体管。
12nm I / O芯片将芯片与8个核心连接在一起。DDR4和PCIe 4.0控制器在I / O芯片上,这使得处理器可以提供类似内存访问的延迟,而不是上一代芯片的三层延迟配置文件。这也有改善NUMA性能的作用,现在只有两个NUMA域,而Naples有三个。这相当于两个域的等时延分布分别为104ns和201ns,分别减少了19%和14%。这些芯片还可以配置为三个NUMA域,可额外减少域94ns时延。
AMD在不需要或未充分利用非核心时增加了动态非核心DVFS系统来节省电力,或者节省的电力可以专用于计算核心。与英特尔不同,AMD不会根据正在处理的指令类型降低频率,而是降低功耗,这有助于罗马为高核心数模型维持更高超频核心数。这特别有助于高性能型号,如图中7742的最大频率的提升。
除了每个插槽的内核数量翻倍外,AMD还使Infinity Fabric的带宽大致翻了一倍,第一代平台在双插槽系统中支持两个处理器之间10.7 GT / s的吞吐量,针对罗马优化的平台可以达到达到18 GT / s。AMD将每个时钟的Infinity Fabric读取宽度增加一倍,达到32B,但保留16B写入宽度。Infinity Fabric还具有链路宽度管理系统,可在低利用率期间节省电力,同样的技术也适用于存储器子系统。
罗马提供高达410 GB / s的内存吞吐量,这很容易超过英特尔282 GB / s的峰值吞吐量。
罗马的I / O链路可以配置为几种不同的用途,可以专用于socket-to-socke的连接,或者仅用作标准PCIe链路。这使得该公司可以在单插槽系统上支持128个通道。PCIe子系统还支持分叉,每个x16链路最多允许8个设备。在Radeon Instinct GPU的智能举措中,一些2P系统可以通过禁用socket-to-socket链路来获得更多的I / O通道,在双插槽服务器中向用户提供多达162通道的PCIe 4.0 。这些技术需要与第一代Naples 系统不兼容的专用平台。
所有罗马处理器都可以在单插槽服务器上运行,但AMD保留了专门针对单插槽系统的型号,以驱动特定的生态系统。
思考
现在看来,AMD EPYC罗马处理器看起来实力强大,具有前所未有的核心数量。我们将不得不等待实验室中的第三方验证,但如果芯片符合预期,AMD的罗马可能是AMD在数据中心的转折点。
英特尔正在忙于推广其平台级优势,例如与加速器和Optane DC持久内存的紧密集成,可以被视为提升价值的互补产品,也可以简单地视为供应商锁定。这一切都取决于你的观点。
英特尔还将确保其合作伙伴和客户意识到它确实拥有自己的高核心数产品,那就是14nm的58核心Cooper Lake型号,但这些芯片要到明年才会发布,现在英特尔的产品依旧使用14nm,没有PCIe 4.0连接。很明显,当英特尔面临如此竞争时,他们正试图阻止客户投资选择EPYC罗马处理器。
对数据中心和企业客户来说,验证软件堆栈和硬件配置需要相当多的验证,特别是对于关键任务应用程序。考虑到开发支持新硬件的新系统所需的时间和金钱,AMD有信心说服客户进行切换。这就是为什么AMD传达其路线图和策略的原因:它希望潜在客户知道这些投资将在长期内获得回报。
正如AMD明智地对其第一代Naples 处理器所做的那样,它的目标是服务超大规模云服务提供商,帮助他们减少开销。设法获得CSP(Cloud service providers)还可以促进基于云的实例生态系统,潜在客户可以使用它来测试新硬件,但不需要负担前期投资。
如果AMD的罗马能兑现其承诺,那么英特尔的主要优势可能在于,英特尔在与大型原始设备制造商和原始设备制造商之间建立了稳固的关系,从而建立了数据中心的主导地位,英特尔在过去几周内一直在努力提醒我们他们的这一优势。但该行业长期以来一直希望通过真正的竞争来控制价格。毫无疑问,罗马在这方面做出了贡献,如果芯片真的如大多数分析师所期望的那样,AMD就可以改变整个数据中心市场。
雷锋网编译,via Tom's Hardware 雷锋网
相关文章:
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/66173.html