PAN: TowarDs Fast Action Recognition via Learning Persistence of Appearance

这篇文章的准备工作发表在了 ACMMM2019 上,我在这里了这篇文章,于是快速读一下写一篇读书笔记。

和 19 号那篇文章很类似,这篇文章提出了一个新的光流算法,简单看了一下在 something-something v1 上居然达到了 55 的准确度。

传统的光流算法是先于训练计算光流,而这样的做法使得动作识别成为了一个 two-stage 任务,这样的任务耗时、占存储空间且不能端到端进行训练。并且提升光流的准确度(应该是更好的体现所有的动作)和动作识别任务并不一致。

Snipaste_2021-02-21_21-03-58.png

作者对比了使用传统使用 EPE loss 的光流、使用 CE loss 的微调光流以及两者通过 Euclidean distance 计算出来的差距,得到结论是: 动作边界的微小移动在动作识别中起到了关键作用(vital role)。

Persistence of Appearance (PA)

传统的光流算法,brightness constancy constraint(亮度恒定约束?不知道怎么翻译顺口)被定义为: \(I(x,y,t) \approx I(x+\Delta x,y+\Delta y,t+\Delta t)\) 其中$I(x,y,t)$表示在时间 t、位置 (x,y) 的视频帧的像素值,它假设像素在移动到下一个位置时点的亮度不会变化。

同理,将上式中的图像 I 变成第 i 个特征图,则能得到:

$F_i(x,y,t) \approx F_i(x+\Delta x,y+\Delta y,t+\Delta t)$

那么第 i 张特征图之间的区别图(Difference map) D 可以被定义为:

$D_i(x,y,\Delta t) \approx F_i(x+\Delta x,y+\Delta y,t+\Delta t) - F_i(x,y,t)$

但是在每一个位置的周边区域去寻找最优解$(\Delta x^*,\Delta y^*)$是十分耗时的,因此作者直接抛弃这种策略,只去捕捉特征空间中某一点的运动变化,而不去考虑运动方向 作者认为:

  • 一个小位移之所以能被感知,是因为在低层次的特征图中,一个像素包含了输入空间中一个小的接受域的信息。

  • 因为开始的一些卷积层倾向于捕捉大致式样(general pattern),也就是边界、上下文信息等等,因此可以捕捉到动作边界。

因此,在低级别特征图中的差异可以反映出动作边界的小位移。

因因此,第 i 个 PA 可以定义为:

$PA_i(p,\Delta t) = F_i(p,t+\Delta t) - F_i(p,t)$

其中 p 表示 $(x,y)$,i 表示C个通道。之后可以通过下列公式展现运动幅度(manifest the motion magnitude)

$PA = \sqrt(\sum_{i=1}^C{(PA_i(p,\Delta t))^2})$

Snipaste_2021-02-22_17-59-34.png

Result

Snipaste_2021-02-22_18-08-39.png

个人感觉为了达到最优结果有点暴力堆叠了。。