Home

Some Paper about Multimodel

最近要做的项目是基于跨模态检索(Cross-modal Retrieval),于是这次首先介绍一篇综述类文章,后介绍两篇比较相关的论文。 It takes one type of data as the query to retrieve relevant data to another. A comprehensive Survey on Cross-modal Retrieval Introduction 多模态数据(multi-modal data)有着异构的属性(heterogeneous property)。对于单模态有着许多排列和寻找技术,但是随着科技的进步,这样的单模态检索并不能满足需求,比如你在长城上游玩,通过拍照上传到社交媒体,你可能会希望使用这张照片来...

Read more

Introduction of some papers

最近开始写小论文,针对性的总结几篇文章的 Introduction 部分 大纲 Introduction 我认为主要可以分为三部分:介绍课题的大方向 -> 介绍前人在这方面的工作,但是他们在某些方面做得不足或是有待改进 -> 引入自己的工作,说明自己的工作在一定程度上解决了这些问题。 Rotate to Attend: Convolutional Triplet Attention Module Over the years of computer vision research, convolutional neural network architectures of increasing depth have demonstrated major succ...

Read more

Transformer Interpretability Beyond Attention Visualization

今天分享的论文是新发表在 CVPR2021 上的,作者用 transformer 代替了传统的卷积网络 CNN。因为 transformer在 NLP 领域有着相当高的地位,感觉之后对于 NLP 和 CV 的结合操作有着很好的前途。 Abstract 自注意力机制(尤其是 transformers)在文字处理领域有着主导地位,并且在 CV 领域也变得越来越流行。目前的方法为了得到图像中可以导致正确分类的部分,要么是使用注意力映射或者在注意力图上采用启发式传播(heuristic propagation along the attention maps) 作者提出了一种对 Transformer 网络计算相关性的方法,该方法可以基于泰勒展开(Taylor decomposition ...

Read more

PAN: TowarDs Fast Action Recognition via Learning Persistence of Appearance

这篇文章的准备工作发表在了 ACMMM2019 上,我在这里了这篇文章,于是快速读一下写一篇读书笔记。 和 19 号那篇文章很类似,这篇文章提出了一个新的光流算法,简单看了一下在 something-something v1 上居然达到了 55 的准确度。 传统的光流算法是先于训练计算光流,而这样的做法使得动作识别成为了一个 two-stage 任务,这样的任务耗时、占存储空间且不能端到端进行训练。并且提升光流的准确度(应该是更好的体现所有的动作)和动作识别任务并不一致。 作者对比了使用传统使用 EPE loss 的光流、使用 CE loss 的微调光流以及两者通过 Euclidean distance 计算出来的差距,得到结论是: 动作边界的微小移动在动作识别中起到了关键作...

Read more

Video Modeling with Correlation Networks

今天读的是一篇发表在 CVPR2020 上的文章,因为自己的实验结果虽然不错,但是缺少相关‘创新点’,还需多多读论文呀,争取之后一个月每两天更新一篇。 Abstract 这篇文章主要是关于视频动作识别(Video Action Recognition)的,motion 作为 salient cue 是这类算法的核心关注点。 往常的做法有两种,一种是双流网络,通过两只网络同时处理 RGB 信息和 Optical Flow 信息后再进行融合,已达到获取视频的 motion 信息;第二种就是简单的使用 3D CNN 来获取视频的时空动作信息。 作者则提出一种基于可学习相关算子(correlation operator)的替代方法,用于在网络不同层的卷积特征映射上建立帧与帧的映射关系。作...

Read more

血族

Happy Chinese New Year! 其实这部剧能拍四季都是神迹(类似不死法医都被一季腰斩),全片看下来最好看的只有第一季第一集。 设定在有着全自动武器的时代,又不是你中世纪没办法,主角一帮人还在用刀砍人,用钢筋棍敲头,excuse me? 明知道虫子会钻皮肤感染,部队设定还在裸露大片皮肤,去送死? 反派boss前期铺垫的那么神秘,结果出场的时候我差点笑了,带个头套穿个肉色胶衣就是boss了? 前几季争的你死我活的神书到最后都没用上,核平的一天,太蠢了 傻逼熊孩子,全程没脑子,第二季换人之后真想给他一拳 反派除了手段残忍(指的是那个血液工厂,把人挂在钩子上...

Read more

TSM: Temporal Shift Module for Efficient Video Understanding

今天分享的文章是一篇发表在 ICCV2019 上的、来自于MIT的工作。文章比较新颖的提出通过让模型在 Temporal dimension 上进行移动来达到使信息在时间维度交互的目的,并且在较低FLOPS下得到了十分优异的 Video Action Recognition 结果。 Abstract 在当时,视频的相关 CV 工作的目的是平衡精确度和计算消耗,传统的 2D CNN 虽然计算开销小但是并不能捕捉到视频帧之间的时间关系,而其升级版 3D CNN 虽然能很好的处理时间信息,但是因为多了一个维度使得参数量爆炸,使其很难更进一步发展。 作者因此提出了一种兼具高性能和高精确度的方法,TSM。它的核心思想是shift part of the channels along the...

Read more

Github Pages配置 + 域名注册 + 绑定

我真的服了,为了这个东西忙了一天,做个总结记录一下 Github Pages 注册和访问部分没什么好讲的,网上很多教程,在这里主要分享一下关于网站模板的应用。 github自带的模板特别简单,除了一些css样式剩下的就是一个面板,如果你想有个花里胡哨的Blog页面的话就要自己写或者伸手拿一个大佬做好的模板。 我这里用的是TeXt,步骤简单总结就是: fork 到自己的目录(star 一下大佬) 把名字改成 username.github.io(这里一定要是自己的 username,否则无法访问) 下载github desktop,改一改大佬的设置(_config.yml),然后在 _posts 上传自己的文章,命名方式为 year-month-day-name...

Read more