自从有了引以为傲的“帕斯卡”之后,英伟达的市场动作相当频繁,除了不断的发布消费级显卡和高性能计算系统之外,英伟达在今年7月推出了NVIDIAQuadro P5000专业级显卡,该显卡最大亮点是搭载了最新的“帕斯卡”构架核心,以及超大显存容量,在能耗以及技术支持方面全面升级。
从具体参数看,NVIDIAQuadro P5000搭载了Pascal GP104核心,包括2560个CUDA核心,搭配了16GB GDDR5X容量显存,有四个DisplayPort1.4和一个DVI-D输出,可以支持60Hz刷新率的四屏5K显示,由于采用了16nm工艺制程,P5000功耗只有180W,技术支持全面,包括DX12、Vulkan、OpenGL、OpenCL、CUDA以及H.265/H.264等视频编码,可以输出4K 120/240Hz、8K 30Hz,可以满足当前复杂的三维图形设计需要。
因此,为了让用户更加深入的了解NVIDIAQuadro P5000专业显卡的应用性能,e-works评测小组特别组织了对Quadro P5000专业显卡的性能测试,同时,为了让用户更好的分析测试性能和效果,我们特别选用了去年发布的NVIDIAQuadro M5000专业显卡做对比测试,Quadro M5000是首款Maxwell架构的旗舰专业显卡。详细的显卡参数如表1:
表1 测试显卡技术指标对比
一、 测试硬件平台配置
表2 测试工作站配
本次选用的硬件测试平台是丽台WinFastWS700工作站,搭配了英特尔酷睿i7-4790K 4.0GHz处理器,该处理器为4核心8线程,最高主频可达4.4 GHz,搭配16GB DDR3 内存,以及西数SATA 500G硬盘。这里特别强调一下,相对SATA硬盘,固态硬盘的速度会更快,有更快需求的用户,也可以为自己的工作站搭配固态硬盘,这样可以进一步提升工作站性能。
二、 软件性能测试
1. Unigine Heaven Benchmark 4.0
Heaven Benchmark是由俄罗斯Unigine游戏公司开发设计的一款Benchmark程序,该程序是由Unigine公司自主研发的游戏引擎设计,其支持DirectX 9、DirectX 10、DirectX 11与OpenGL4.0 API.Heaven Benchmark是一款专门测试图形API工作效率的软件,软件场景是空中浮岛,通过视角在场景中漫游的方式进行评测。Unigin.Heaven 4.0升级了Unigine引擎版本,而且加入了两个预设测试设置以方便对比测试结果。
在很多专业显卡的图形测试中,进行DirectX和OpenGL的性能测试几乎是必须完成的一步。很多用户不大理解Direct和OpenGL的区别。简单来说,Direct3D主要测试的是显卡在消费级应用场景中的3D效果,包括游戏、多媒体等场景。Direct3D 11的功能是增强3D图形交互和声音效果。OpenGL主要测试的是专业级图形应用场景下的应用效果,包括三维设计、虚拟仿真、内容创作等针对企业级应用场景的设计需求。就目前而言,随着专业显卡计算能力的不断提升,通过对Direct和OpenGL两大API的持续优化,专业显卡也基本能很好的适应消费级的场景应用需求。
图1 两款显卡分别在Direct3D 11和OpenGL上性能对比
图1为Quadro P5000和Quadro M5000两种专业显卡在两大API场景测试中的结果。可以分析,通过测试在Heaven Benchmark软件中性能,可以发现P5000在Direct3D 11下面的性能要比M5000高出了71%,在OpenGL下的性能P5000也比M5000高出了60%左右。由此可见,新一代Pascal架构针对Direct3D和OpenGL的性能优化做了不少工作,显卡性能着实提升了不少。在运行帧数上,Quadro P5000更快,且更稳定。
2. SPECviewperf 12
在 2013 年12 月18 日公 布 的SPECviewperf 12,是基于专业应用上衡量显卡性能的一个新版本。SPECviewperf 12带来了全新的 8个专业图形测试场景,包括 Energy、Medical、Catia、Cero、Maya、SNX 以及主要基于 Open GL 4.0架构的Solidworks 和首次添加基于 Dirext X 架构的Showcase。全新的 SPECviewperf 12 测试更加贴近真实的工作应用,其中一些测试场景甚至包含有超过 6000 万个定点数据,能够充分反映出工作站的专业性能,其专业性将有望成为新一代的专业测试基淮,是专业图形性能的测试标杆。测试使用分辨率为 1900×1060,分别测试 M5000、P5000,并对他们进行对比。
SPECviewperf测试是专业测试中必须测试的一个环节。SPEC viewperf中的场景片段都是从各三维设计软件中抽取出来的典型场景,能全面而准确的反应出专业显卡在不同的三维应用软件中的应用效果。
图2 SPECviewperf 12测试结果对比
图2为两款专业显卡在SPECviewperf12中的测试结果。其中纵轴代表的是FPS,即帧数。通过测试分析,可以发现在Quadro P5000在所有的场景片段测试中都要优于Quadro M5000,除energy-01场景测试中都低于50FPS,两款显卡在Catia-04、Creo-01、Maya-04、medical-01、Snx-02、SW-03的测试中都要高于50FPS,一般而言,这个数值高于30FPS就表示测试过程流畅。测试结果表明,两款显卡都能很好的满足专业的三维设计需求,但从性能来讲,Quadro P5000要明显优于Quadro M5000。e-works评测小组建议,在较大的模型设计和装配场景中,用户可优先考虑Quadro P5000专业级显卡。
3. FurMark
FurMark 是oZone3D 开发的一款Open GL 基准测试工具,通过皮毛渲染算法来衡量显卡的性能,同时还能借此考验显卡的稳定性。提供了多种测试选项,比如全屏/窗口显示模式、九种预定分辨率(也可以自定义)、基于时间或帧的测试形式、多种多重采样反锯齿(MSAA)、竞赛模式等等,并且支持包括简体中文在内的五种语言,此次测试分辨率为 1080P,未开启抗锯齿功能。
相对SPECviewperf 12的测试,FurMark主要测试的是专业显卡对点、线、面的处理多种多重采样反锯齿处理能力。比如渲染过程的色彩处理、面的缩放处理和覆盖处理、以及线条的边缘抗锯齿处理。这些细节的处理能力将极大的影响用户的三维设计体验。
图3 FurMark测试结果对比
图3为两款显卡在FurMark平台中的测试结果。横轴为FPS,即帧数。一般而言,人眼对每秒30帧以上的刷新率会感到流畅。测试结果表明,两款专业显卡的FPS都超过50,Quadro P5000甚至都超过100FPS,表明整个测试过程十分流畅。
在Furmark 测试过程中,我们将GPU性能发挥到了极限,发现在GPU资源耗尽的情况下,Quadro M5000的帧数可以达到55帧,而Quadro P5000的帧数则达到了 117 帧。在温度控制上,Quadro P5000 的满载温度比 M5000 还要略低一些,说明在散热设计上,Quadro P5000 控制的非常好。
4. LuxMark 4.0
LuxMark 是一款由 Jromang 编写的 Open CL 测试工具,基于开源的 LuxRender 引擎,能够有效地测试 GPU 和CPU 的Open CL 运算性能。
OpenCL全称Open Computing Language,由苹果公司开发,是第一个面向异构系统通用目的并行编程的开放式、免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码,而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器,在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。
如果说DirectX主要是针对消费级显示的API,OpenGL是针对专业级图形设计的API,那么,OpenCL更像是融合了消费级和专业级特点的API。OpenCL的特点是实现CPU和GPU协作运算,得到了包括微软、NVIDIA、AMD在内的厂商支持。
图4 LuxMark测试结果对比
图3为两款显卡在LuxMark软件平台中的测试结果,横轴代表的是性能综合得分。从测试结果分析,Quadro P5000的Open CL 计算性能比 Quadro M5000 要高出 32%,这表明Quadro P5000在CPU和GPU的数据处理与协调能力上更好,对于很多高性能计算,CPU和GPU的协调能力高低将决定整机的性能。比如在如虚拟仿真应用环境下,由于这一过程需要进行大量的数据计算和分析,CPU和GPU的协调能力尤其重要。因此,评测小组认为在基于仿真分析这样的场景中,Quadro P5000会比Quadro M5000有更好的性能表现。
5. CUDA-Z
CUDA-Z 就像我们常用的 CPU-Z 或者 GPU-Z,但是具体参数就变成了针对CUDA 应用方面的信息,支持 CUDA 信息查询,还可以测试电脑 CUDA 的速度,测试的数据都是理论值。 GPU 核心性能分别测试了单精度浮点运算能力 Single-precision Float、双精度浮点运算能力 Double-precision Float。
这里首先介绍一下CUDA,CUDA是NVIDIA自己推出的通用并行计算架构平台,该架构使GPU能够解决复杂的计算问题。简单来说,传统的计算机是基于CPU架构设计和运算,但随着数据计算规模的不断扩大,传统基于CPU架构的计算机已经很难完成在超大规模科研环境甚至大数据分析环境中的计算任务需求,而区别于CPU的串行计算架构,GPU所采用的并行计算架构在大规模的计算能力上有着天然优势。因此,CUDA就相当于传统CPU中的X86,不同的是它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员现在可以使用C语言来为CUDA架构编写程序,C语言是应用最广泛的一种高级编程语言,所编写出的程序于是就可以在支持CUDA的处理器上以超高性能运行。
图5 浮点运算性能对比
图5为两款显卡在CUDA-Z 软件平台的性能测试结果。其中,单精度浮点型(float )专指占用32位存储空间的单精度(single-precision )值。单精度在一些处理器上比双精度更快而且只占用双精度一半的空间,但是当值很大或很小的时候,它将变得不精确。而双精度浮点运算能力(double float)表示实型变量的一种变量类型,数据类型与单精度数据类型(float)相似,但精确度比float高,编译时所占的内存空间依不同的编译器而有所不同。单精度计算能力主要体现的是GPU的绘图和渲染能力。而双精度计算能力主要体现的是大规模的数据计算,如科研计算、大规模的数据仿真等。
通过测试分析,在单精度浮点运算中,Quadro P5000 几乎达到了 9TFlops,相当于 Quadro M5000 计算能力的两倍,也就是说 Quadro P5000 在渲染和绘图等专业图形应用场景中利用率很高,能很好的满足复杂的图形设计需求。
三、 测试总结
通过本次测试,我们测试了Quadro P5000和Quadro M5000两款专业显卡在四个软件平台中的性能,对包括DirextX、OpenGL、OpenCL三大图形API的性能测试,从测试结果看,Quadro P5000在所有的场景测试中都要优于Quadro M5000。综合分析后总结出以下优势及特点:
- Quadro P5000采用Pascal架构,GPU采用16nm的芯片,所以集成度更高。CUDA核心由 Quadro M5000 的2048 增加到了 2560。更合理的 GPU 架构使得单精度浮点计算性能得以释放,性能已接近 9TFlops,渲染和计算性能有了大幅提升。
- 16GB 的大显存可以加载更大的数据量,从而显卡可以加载更大的 3D 场景,更多的装配体组件。
- Quadro P5000 继承了 NVIDIA 专业卡的设计理念,专业绘图领域各个应用都有很好的兼容性。
- 使用 Furmark 进行拷机测试。同样的条件下,Quadro P5000 的工作温度要比 Quadro M5000 低5ºC 左右,未出现死机和卡屏等现象,运行流畅。
- Quadro P5000 使用 DP 1.4 的显示接口,最高分辨率可以支持到 5K,同时可以支持 4屏显示。给高分辨率显示提供更加便利的条件。
-
Quadro P5000 同样支持 SLI和Quadro SYNCII,在多卡使用时提供很完美的解决方案。
原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/tech/cloud/171209.html