实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

（原标题：完美抠图王冰冰！字节实习生开发的 AI，实现 4K60 帧视频实时抠图，连头发丝都根根分明）

看这一头蓬松的秀发，加上帅气的动作，你以为是在绿幕前拍大片？

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

No、No、No

这其实是 AI 拿来视频实时抠图后的效果。

没想到吧，实时视频抠图，现在能精细到每一根发丝。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

换到 alpha 通道再看一眼，不用多说，德芙打钱吧（手动狗头）。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

这就是来自字节跳动实习生小哥的最新研究：实时高分辨率视频抠图大法。

无需任何辅助输入，把视频丢给这个名为 RVM 的 AI，它分分钟就能帮你把人像高精度抠出，将背景替换成可以任意二次加工的绿幕。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

不信有这么丝滑？我们用线上 Demo 亲自尝试了一波。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

相比之下，现在在线会议软件里的抠图，一旦头发遮住脸，人就会消失……

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

头发丝更是明显糊了。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

难怪看得网友直言：

不敢想象你们把这只 AI 塞进手机里的样子。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

目前，这篇论文已经入选 WACV 2022。

你也可以上手一试目前，RVM 已经在 GitHub 上开源，并给出了两种试玩途径：

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

于是我们也赶紧上手试了试。

先来看看效果：

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

首先来点难度低的。对于这种人物在画面中基本不移动的情况，RVM 可以说是表现的非常好，和人工抠图几乎无差别。

现在，王冰冰进入动森都毫不违和了。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

于是开脑洞，也变得简单了许多……

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

咳咳，言归正传。人物动作幅度加大会怎样呢？

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

对于多人舞蹈视频而言，RVM 的表现也很 nice。即便动来动去、头发乱甩，也没有影响它的抠图效果。只有在人物出现遮挡的情况下，才会出现瑕疵。对比前辈方法 MODNet，确实有不小的进步。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

不过我们也发现，如果视频的背景较暗，就会影响 RVM 的发挥。

比如在这种背景光线昏暗的情况下，抠图的效果就非常不尽人意了。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

可以看到，博主老哥的头发完全糊了。

而且身体的边界线也不够清晰。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

所以，如果你想自己拍视频试玩，就一定要选择光线充足的场景。

利用时间信息

那么这样的“魔法”，具体又是如何实现的？

照例，我们先来扒一扒论文~

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

实际上，有关视频抠图的算法如今已不鲜见，其中大多数采用的是将视频中的每一帧作为独立图像来实现抠图的方法。

不同与此，在这篇论文中，研究人员构建了一个循环架构，利用上了视频的时间信息，在时间一致性和抠图质量上取得了明显改进。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

从上图中可以看出，RVM 的网络架构包括 3 个部分：

特征提取编码器，用来提取单帧特征；

循环解码器，用于汇总时间信息；

深度引导滤波（DGF）模块，用于高分辨率上采样。

其中，循环机制的引入使得 AI 能够在连续的视频流中自我学习，从而了解到哪些信息需要保留，哪些信息可以遗忘掉。

具体而言，循环解码器采用了多尺度 ConvGRU 来聚合时间信息。其定义如下：

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

在这个编码器-解码器网络中，AI 会完成对高分辨率视频的下采样，然后再使用 DGF 对结果进行上采样。

除此之外，研究人员还提出了一种新的训练策略：同时使用抠图和语义分割目标数据集来训练网络。

这样做到好处在于：

首先，人像抠图与人像分割任务密切相关，AI 必须学会从语义上理解场景，才能在定位人物主体方面具备鲁棒性。

其次，现有的大部分抠图数据集只提供真实的 alpha 通道和前景信息，所以必须对背景图像进行合成。但前景和背景的光照往往不同，这就影响了合成的效果。语义分割数据集的引入可以有效防止过拟合。

最后，语义分割数据集拥有更为丰富的训练数据。

经过这一番调教之后，RVM 和前辈们比起来，有怎样的改进？

从效果对比中就可以明显感受到了：

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

另外，与 MODNet 相比，RVM 更轻更快。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

从下面这张表格中可以看出，在 1080p 视频上 RVM 的处理速度是最快的，在 512×288 上比 BGMv2 略慢，在 4K 视频上则比带 FGF 的 MODNet 慢一点。研究人员分析，这是因为 RVM 除了 alpha 通道外还预判了前景。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

更直观的数据是，在英伟达 GTX 1080Ti 上，RVM 能以 76FPS 的速度处理 4K 视频，以 104FPS 的速度处理 HD 视频。

一作字节跳动实习生

这篇论文是一作林山川在字节跳动实习期间完成的。他本科、硕士均毕业于华盛顿大学，曾先后在 Adobe、Facebook 等大厂实习。2021 年 3 月-6 月，林山川在字节跳动实习。8 月刚刚入职微软。

事实上，林山川此前就曾凭借 AI 抠图大法拿下 CVPR 2021 最佳学生论文荣誉奖。

他以一作身份发表论文《Real-Time High-Resolution Background Matting》，提出了 Background Matting V2 方法。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

这一方法能够以 30FPS 的速度处理 4K 视频，以 60FPS 的速度处理 HD 视频。

值得一提的是，Background Matting 这一系列方法不止一次中了 CVPR。此前，第一代 Background Matting 就被 CVPR 2020 收录。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

两次论文的通讯作者都是华盛顿大学副教授 Ira Kemelmacher-Shlizerman，她的研究方向为计算机视觉、计算机图形、AR/VR 等。

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

此外，本次论文的二作为 Linjie Yang，他是字节跳动的研究科学家。本科毕业于清华大学，在香港中文大学获得博士学位。

对了，除了能在 Colab 上试用之外，你也可以在网页版上实时感受一下这只 AI 的效果，地址拿好：

https://peterl1n.github.io/RobustVideoMatting/#/demo

GitHub 地址：

https://github.com/PeterL1n/RobustVideoMatting

论文地址：

https://arxiv.org/abs/2108.11515

参考链接：

[R] Robust High-Resolution Video Matting with Temporal Guidance
byu/Illustrious_Row_9971 inMachineLearning

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/135549.html

实习生大佬开发出 AI 抠图：4K 60 帧视频毫无压力，支持网页体验

相关推荐

发表回复