Home

PAN: TowarDs Fast Action Recognition via Learning Persistence of Appearance

这篇文章的准备工作发表在了 ACMMM2019 上,我在这里了这篇文章,于是快速读一下写一篇读书笔记。 和 19 号那篇文章很类似,这篇文章提出了一个新的光流算法,简单看了一下在 something-something v1 上居然达到了 55 的准确度。 传统的光流算法是先于训练计算光流,而这样的做法使得动作识别成为了一个 two-stage 任务,这样的任务耗时、占存储空间且不能端到端进行训练。并且提升光流的准确度(应该是更好的体现所有的动作)和动作识别任务并不一致。 作者对比了使用传统使用 EPE loss 的光流、使用 CE loss 的微调光流以及两者通过 Euclidean distance 计算出来的差距,得到结论是: 动作边界的微小移动在动作识别中起到了关键作...

Read more

Video Modeling with Correlation Networks

今天读的是一篇发表在 CVPR2020 上的文章,因为自己的实验结果虽然不错,但是缺少相关‘创新点’,还需多多读论文呀,争取之后一个月每两天更新一篇。 Abstract 这篇文章主要是关于视频动作识别(Video Action Recognition)的,motion 作为 salient cue 是这类算法的核心关注点。 往常的做法有两种,一种是双流网络,通过两只网络同时处理 RGB 信息和 Optical Flow 信息后再进行融合,已达到获取视频的 motion 信息;第二种就是简单的使用 3D CNN 来获取视频的时空动作信息。 作者则提出一种基于可学习相关算子(correlation operator)的替代方法,用于在网络不同层的卷积特征映射上建立帧与帧的映射关系。作...

Read more

血族

Happy Chinese New Year! 其实这部剧能拍四季都是神迹(类似不死法医都被一季腰斩),全片看下来最好看的只有第一季第一集。 设定在有着全自动武器的时代,又不是你中世纪没办法,主角一帮人还在用刀砍人,用钢筋棍敲头,excuse me? 明知道虫子会钻皮肤感染,部队设定还在裸露大片皮肤,去送死? 反派boss前期铺垫的那么神秘,结果出场的时候我差点笑了,带个头套穿个肉色胶衣就是boss了? 前几季争的你死我活的神书到最后都没用上,核平的一天,太蠢了 傻逼熊孩子,全程没脑子,第二季换人之后真想给他一拳 反派除了手段残忍(指的是那个血液工厂,把人挂在钩子上...

Read more

TSM: Temporal Shift Module for Efficient Video Understanding

今天分享的文章是一篇发表在 ICCV2019 上的、来自于MIT的工作。文章比较新颖的提出通过让模型在 Temporal dimension 上进行移动来达到使信息在时间维度交互的目的,并且在较低FLOPS下得到了十分优异的 Video Action Recognition 结果。 Abstract 在当时,视频的相关 CV 工作的目的是平衡精确度和计算消耗,传统的 2D CNN 虽然计算开销小但是并不能捕捉到视频帧之间的时间关系,而其升级版 3D CNN 虽然能很好的处理时间信息,但是因为多了一个维度使得参数量爆炸,使其很难更进一步发展。 作者因此提出了一种兼具高性能和高精确度的方法,TSM。它的核心思想是shift part of the channels along the...

Read more

Github Pages配置 + 域名注册 + 绑定

我真的服了,为了这个东西忙了一天,做个总结记录一下 Github Pages 注册和访问部分没什么好讲的,网上很多教程,在这里主要分享一下关于网站模板的应用。 github自带的模板特别简单,除了一些css样式剩下的就是一个面板,如果你想有个花里胡哨的Blog页面的话就要自己写或者伸手拿一个大佬做好的模板。 我这里用的是TeXt,步骤简单总结就是: fork 到自己的目录(star 一下大佬) 把名字改成 username.github.io(这里一定要是自己的 username,否则无法访问) 下载github desktop,改一改大佬的设置(_config.yml),然后在 _posts 上传自己的文章,命名方式为 year-month-day-name...

Read more

Rotate to Attend: Convolutional Triplet Attention Module

这是一篇发表在 WACV2021 上的文章,初读下来其实就是作者想方设法地想将 channels 和其他通道(spatial location or temporal channel)进行融合来使得信息进行交互、相融。 Abstract 之前的图像领域 cv 算法已相当饱和了,通过在 spatial location 或是 channels 进行单独 attention 操作,使得准确度又有了一波提升。那么作者就突发奇想了,我能不能做一种 cross-dimension interaction,通过这种跨纬度的 attention 使得模型更优化呢? 对于一个输入,首先通过 risidual transformation 操作使其进行旋转(其实就是一个 permute),然后通过...

Read more