如何用张量分解加速深层神经网络？（附代码）

本文为雷锋字幕组编译的技术博客，原标题Accelerating deep neural networks with tensor decompositions，作者为Jacob。

翻译 | 林立宏整理 | 凡江

背景

在这篇文章中，我将介绍几种低秩张量分解方法，用于在现有的深度学习模型中进行分层并使其更紧凑。我也将分享PyTorch代码，它使用Tensorly来进行在卷积层上的CP分解和Tucker分解。

尽管希望大部分帖子都是可以独立阅读的，关于张量分解的回顾可以在这里找到。Tensorly的作者也写了于Tensor的基础内容非常棒的notebook。这帮助我很好的开始学习这块内容，建议你阅读一下这些内容。

加上裁剪（pruning），张量分解是加快现有深度神经网络的实用工具，我希望这篇文章能让这些内容更加容易理解。

这些方法需要将一个层分解成几个更小的层。尽管在分解后会有更多的层，但是浮点运算次数和权重的总数会变小。一些报告的结果是整个网络的x8倍的速度提升（不针对像imagenet这样的大型任务），或者imagenet中的特定层中x4倍的提升。我的结论是用这些分解方式，我能够获得x2到x4倍的加速，这取决于我愿意牺牲多少的精度。

在这篇文章中我介绍了一些称为裁剪（pruning）的技术以减少模型中的参数数量。在一个数据集上正向传递（有时是反向传递）裁剪（pruning），然后根据网络中激活的一些标准对神经元进行排序。

完全不同的是，张量分解的办法只用到层的权重，假设网络层是参数化的，它的权重能够用一个矩阵或者是一个低秩的张量来表示。这意味这个它们在参数化的网络下效果最佳。像VGG神经网络设计为完全参数化的。另外一个关于参数化模型的例子是使用更少的类别对网络进行微调以实现更简单的任务。

和裁剪（pruning）相似，分解之后通过模型需要微调来恢复准确性。

在我们会深入讨论细节之前，最后一件要说明的事是，虽然这些方法是实用的，并给出了很好的结果，但它们有一些缺点：

它们能够在一个线性权重上执行（比如一个卷积或者一个全连接的层），忽略了任何非线性的内容。
它们是贪婪，自认为聪明地分解层，忽略了不同层之间的相互作用。

目前还要试图解决这些问题，而且它仍然是一个活跃的研究领域。

截断SVD用于分解完全连接的层

第一份我能找到的使用这个来加速深度神经网络的是在Fast-RNN论文中，Ross Girshick使用它来加速用于检测的全连接层。代码可以在这里找到：pyfaster-rcnn implementation。

SVD概况

奇异值分解使我们能够分解任何具有n行和m列的矩阵A：

如何用张量分解加速深层神经网络？（附代码）

S是一个对角矩阵，其对角线上有非负值（奇异值），并且通常被构造成奇异值按降序排列的。U和V是正交矩阵：如何用张量分解加速深层神经网络？（附代码）

如果我们取最大的奇异值并将其余的归零，我们得到A的近似值：如何用张量分解加速深层神经网络？（附代码）

如何用张量分解加速深层神经网络？（附代码）具有作为Frobenius范数最接近于A的秩t矩阵的性质，所以如果t足够大，是A的良好近似。

在全连接层上的SVD

一个全连接层通常是做了矩阵乘法，输入一个矩阵A然后增加一个偏差b：

如何用张量分解加速深层神经网络？（附代码）

我们可以取A的SVD，只保留第一个奇异值。

如何用张量分解加速深层神经网络？（附代码）

这不是一个完全连接的层，而是指导我们如何实现它作为两个较小的：

第一个将有一个mxt的形状，将没有偏差，其权重将取自。
第二个将有一个txn的形状，将有一个等于b的偏差，其权重将取自。

权重总数从nxm下降到t（n + m）。

在卷积层上张量分解

二维卷积层是一个多维矩阵（后面用-张量），有四个维度：

cols x rows x input_channels x output_channels.

遵循SVD的例子，我们想要以某种方式将张量分解成几个更小的张量。卷积层转换为几个较小近似的卷积层。

为此，我们将使用两种流行的（至少在Tensor算法的世界中）张量分解：CP分解和Tucker分解（也称为高阶SVD或其他名称）。

1412.6553 使用微调CP分解加速卷积神经网络

1412.6553 Speeding-up Convolutional Neural Networks Using Fine-tuned CP-Decomposition 这篇论文说明了如果CP分解能够用于卷积层的加速，正如我们会看到的，这将卷积层纳入类似移动网络的东西。

他们使用它来加速网络的速度，而不会明显降低精度。在我自己的实验中，我可以使用这个在基于VGG16的网络上获得x2加速，而不会降低准确度。

我使用这种方法的经验是，需要非常仔细地选择学习率，微调以使其工作，学习率通常应该非常小（大约如何用张量分解加速深层神经网络？（附代码））。

一个秩R矩阵可以被视为R秩和1矩阵的和，每个秩1矩阵是一个列向量乘以一个行向量：如何用张量分解加速深层神经网络？（附代码）

SVD为我们提供了使用SVD中的U和V列来写矩阵和的方法：如何用张量分解加速深层神经网络？（附代码）

如果我们选择一个小于矩阵满秩的R，那么这个和就是一个近似值，就像截断SVD的情况一样。

CP分解让我们推广了张量。

使用CP分解，我们的卷积核，一个四维张量公式，可以近似为一个选定的R：如何用张量分解加速深层神经网络？（附代码）

我们希望R对于有效的分解是小的，但是对保持近似高精度是足够大的。

带CP分解的卷积正向传递

为了传递图层，我们使用输入如何用张量分解加速深层神经网络？（附代码）进行卷积：

如何用张量分解加速深层神经网络？（附代码）

这给了我们一个办法来解决这个问题：

1.首先做一个wise（1x1xS）与如何用张量分解加速深层神经网络？（附代码）卷积。这减少了从S到R输入通道的数量。下一步将在较少数量的通道上完成卷积，使其更快。

2.用如何用张量分解加速深层神经网络？（附代码）在空间维度上执行分离的卷积。就像在移动网络中一样，卷积是深度可分的，分别在每个通道中完成。与mobilenets不同，卷积在空间维度上也是可分的。

3.做另一个逐点卷积来改变从R到T的通道数量如果原始卷积层有一个偏差，在这一点上加上它。

注意像在移动网中的逐点和深度卷积的组合。在使用mobilenets的时候，你必须从头开始训练一个网络来获得这个结构，在这里我们可以把现有的图层分解成这种形式。

与移动网络一样，为了获得最快的速度，需要一个有效实现深度可分离卷积的平台。

用PyTorch和Tensorly卷积层CP分解

如何用张量分解加速深层神经网络？（附代码）

1511.06530 用于快速和低功率移动应用的深度卷积神经网络的压缩

1511.06530 Compression of Deep Convolutional Neural Networks for Fast and Low Power Mobile Applications 这一篇非常酷的论文，说明了如何使用Tucker分解来加速卷积层来得到更好的结果。我也在基于VGG的参数化网络用了这种加速，比CP分解的精度要好。作者在论文中指出，它可以让我们使用更高的学习率（我用如何用张量分解加速深层神经网络？（附代码））进行微调。