GTX1080ti、Jetson NANO和树莓派跑深度学习性能差别有多大？

这个问题经常被问起

最近有人在Github上发了一个评测报告，我们先来看看吧。

这个报告记录了DeepDetect开源深度学习服务在各种计算平台和流行神经网络架构上的性能。

点击阅读原文可以了解更详细的测试情况

参考平台

NVidia GTX 1080 Ti

NVidia Jetson TX1

NVIDIA Jetson NANO

Raspberry Pi 3

请注意，1080Ti和TX1使用CuDNN NVidia加速库，而TK1使用没有CuDNN的GPU加速，而Raspberry仅使用CPU。

参考网络

GoogleNet
VGG16 and VGG19
Resnet 50, 101 and 152
Densenet 121 and 201
Squeezenet v1.0 and v1.1
Mobilenet (原始Caffe版本和另一个自定义加速版本)
Shufflenet

先看一下测试结果:

GTX1080ti

在使用GTX1080Ti的桌面级别GPU上，大多数型号的性能都能超过25 fps。该卡有11 GB GDDR5X VRAM和3584 CUDA核，最大主频1582 MHz。这相当于11.3 tflops /s。相对嵌入式系统，桌面GPU卡有强大的实时处理性能，但其功耗在嵌入式系统应用中是不可行的。在280瓦的负载下，桌面设置适合于分析应用程序。

Jetson TX1

排名第二的是英伟达Jetson TX1。TX1在运行时的最大功耗为15w，是嵌入式系统应用程序的一个很好的候选。在1 TFLOPS理论输出时，TX1能够将squeezenet_1.0、squeezenet_v1.1、mobilenet_depthwise、googlenet和shufflenet推到超过25帧每秒。在极端情况下，对于squeezenet_v1.1, Tx1最多可以计算85帧fps，批处理大小等于或大于16。对于自动驾驶汽车等时间紧迫的项目，TX1可能是可行的解决方案。

Jetson Nano

Nano在运行时的功耗为5w，是嵌入式系统应用和IA on edge的低成本解决方案。它的输出为500 GFLOPS。批量为1时，ShuffleNet和SqueezeNet分别达到12和25 fps。Jetson Nano在运行 Squeezenet-SSD-faces, SqueezeNet-SS-voc 和ResNet18-ocr时，batch-size等于2，可以推动多达10帧每秒。当推到64批大小时，Nano可以为SqueezeNet和ResNet18-ocr计算高达48帧的帧频。对于大型项目或预算有限的项目，Jetson Nano似乎是一个有趣的解决方案。

Raspberry Pi3 model B

在只有4瓦的负载下，Pi应该是遥感的首选解决方案。缺点在于它处理图像的能力，最多只有1帧。

原创文章，作者：3628473679，如若转载，请注明出处：https://blog.ytso.com/212469.html

GTX1080ti、Jetson NANO和树莓派跑深度学习性能差别有多大？

参考网络

相关推荐

发表回复