完美抠图王冰冰！字节实习生开发的AI，实现4K60帧视频实时抠图，连头发丝都根根分明

来源：https://mp.weixin.qq.com/s/HHS888HA0slvjkkkI8HU8w

看这一头蓬松的秀发，加上帅气的动作，你以为是在绿幕前拍大片？

No、No、No

这其实是AI拿来视频实时抠图后的效果。

没想到吧，实时视频抠图，现在能精细到每一根发丝。

换到alpha通道再看一眼，不用多说，德芙打钱吧（手动狗头）。

这就是来自字节跳动实习生小哥的最新研究：实时高分辨率视频抠图大法。

无需任何辅助输入，把视频丢给这个名为RVM的AI，它分分钟就能帮你把人像高精度抠出，将背景替换成可以任意二次加工的绿幕。

不信有这么丝滑？我们用线上Demo亲自尝试了一波。

相比之下，现在在线会议软件里的抠图，一旦头发遮住脸，人就会消失……

头发丝更是明显糊了。

难怪看得网友直言：

不敢想象你们把这只AI塞进手机里的样子。

目前，这篇论文已经入选WACV 2022。

你也可以上手一试

目前，RVM已经在GitHub上开源，并给出了两种试玩途径：

于是我们也赶紧上手试了试。

先来看看效果：

首先来点难度低的。

对于这种人物在画面中基本不移动的情况，RVM可以说是表现的非常好，和人工抠图几乎无差别。

现在，王冰冰进入动森都毫不违和了。

于是开脑洞，也变得简单了许多……

咳咳，言归正传。人物动作幅度加大会怎样呢？

对于多人舞蹈视频而言，RVM的表现也很nice。

即便动来动去、头发乱甩，也没有影响它的抠图效果。

只有在人物出现遮挡的情况下，才会出现瑕疵。

对比前辈方法MODNet，确实有不小的进步。

不过我们也发现，如果视频的背景较暗，就会影响RVM的发挥。

比如在这种背景光线昏暗的情况下，抠图的效果就非常不尽人意了。

可以看到，博主老哥的头发完全糊了。

而且身体的边界线也不够清晰。

所以，如果你想自己拍视频试玩，就一定要选择光线充足的场景。

利用时间信息

那么这样的“魔法”，具体又是如何实现的？

照例，我们先来扒一扒论文~

实际上，有关视频抠图的算法如今已不鲜见，其中大多数采用的是将视频中的每一帧作为独立图像来实现抠图的方法。

不同与此，在这篇论文中，研究人员构建了一个循环架构，利用上了视频的时间信息，在时间一致性和抠图质量上取得了明显改进。

从上图中可以看出，RVM的网络架构包括3个部分：

特征提取编码器，用来提取单帧特征；

循环解码器，用于汇总时间信息；

深度引导滤波（DGF）模块，用于高分辨率上采样。

其中，循环机制的引入使得AI能够在连续的视频流中自我学习，从而了解到哪些信息需要保留，哪些信息可以遗忘掉。

具体而言，循环解码器采用了多尺度ConvGRU来聚合时间信息。其定义如下：

在这个编码器-解码器网络中，AI会完成对高分辨率视频的下采样，然后再使用DGF对结果进行上采样。

除此之外，研究人员还提出了一种新的训练策略：同时使用抠图和语义分割目标数据集来训练网络。

这样做到好处在于：

首先，人像抠图与人像分割任务密切相关，AI必须学会从语义上理解场景，才能在定位人物主体方面具备鲁棒性。
其次，现有的大部分抠图数据集只提供真实的alpha通道和前景信息，所以必须对背景图像进行合成。但前景和背景的光照往往不同，这就影响了合成的效果。语义分割数据集的引入可以有效防止过拟合。
最后，语义分割数据集拥有更为丰富的训练数据。

经过这一番调教之后，RVM和前辈们比起来，有怎样的改进？

从效果对比中就可以明显感受到了：