survey-about-video-visual-relation-detection-in-computer-vision

RELATED WORK

Video object detection

  1. Kai Kang, Wanli Ouyang, Hongsheng Li, and Xiaogang Wang. 2016. Object detection from video tubelets with convolutional neural networks. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 817–825.
    通过联合针对静态图像的物体检测方法和一般物体跟踪方法,从给定的视频中产生 许多小段的物体跟踪提议,来预测小段中含有物体的概率。

  2. Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. 2016. You only look once: Unified, real-time object detection. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 779–788.
    将图像网格化,对每一个网格进行物体的·bounding box和类别的预测,最后进行 NMS处理,建立了一个端到端的模型。

  3. Wenhan Luo, Junliang Xing, Xiaoqin Zhang, Xiaowei Zhao, and Tae-Kyun . 2014. Multiple object tracking: A literature review. arXiv:1409.7618 (2014).
    本文描述了视频中多目标跟踪(MOT)任务的相关方法和问题,提出了一个统一问题公式和一些现有方法的分类方式,介绍了state-of-the-art MOT算法的关键因素,并讨论了MOT算法的测评包括评价指标、公开数据集,开源代码的实现,和基准测试结果。

  4. Long Ying, Tianzhu Zhang, and Changsheng Xu. 2015. Multi-object tracking via MHT with multiple information fusion in surveillance video. Multimedia Systems 21, 3 (2015), 313–326.
    本文提出了一个基于多信息融合的多假设追踪算法,涉及到HSV-LBP表观特征、局 部动作模式以及排斥惯性模型。

  5. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 770–778.
    提出了一个残差网络框架,有利于训练更深的网络,使得图像的识别准确率得到提升。

  6. Min Lin, Qiang Chen, and Shuicheng Yan. 2013. Network in network. arXiv:1312.4400 (2013).
    提出MLP卷积层和全局平均池化,改进了传统的CNN网络,减少了需要训练的网络参 数。

  7. Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. 2015. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems. IEEE, 91–99.
    Faster RCNN已经将特征抽取(feature extraction),proposal提取,bounding box regression(rect refine),classification都整合在了一个网络中,使得综合性能有较大 提高,在检测速度方面尤为明显。

  8. Meng Wang, Changzhi Luo, Richang Hong, Jinhui Tang, and Jiashi Feng. 2016. Beyond object proposals: Random crop pooling for multi-label image recognition. IEEE Transactions on Image Processing 25, 12 (2016), 5678–5688.
    针对多标签图像识别任务,提出一个随机剪切的池化方法,不需要预先产生大量的 object proposals,也不需要后处理步骤。

  9. Wongun Choi. 2015. Near-online multi-target tracking with aggregated local flow descriptor. In IEEE International Conference on Computer Vision. IEEE, 3029–3037.
    本文解决了MOT的两个关键挑战,一是如何准确地衡量两个检测之间的相似性, 二是如何有效地把全局跟踪的算法思想用至在线应用中。

  10. Byungjae Lee, Enkhbayar Erdenee, Songguo Jin, Mi Young Nam, Young Giu Jung, and Phill Kyu Rhee. 2016. Multi-class Multi-object Tracking Using ChangingPoint Detection. In European Conference on Computer Vision. Springer, 68–83.
    本文提出了一种新颖的多类别多物体跟踪框架,使用变点检测模型来检测突变和异 常。

  11. Anton Milan, Stefan Roth, and Konrad Schindler. 2014. Continuous energy minimization for multitarget tracking. IEEE Transactions on Pattern Analysis and Machine Intelligence 36, 1 (2014), 58–72.
    该论文从运动的整体性出发,提出了一个整体的,比较贴合运动特征的能量函数,然后通过对该能量函数进行寻优得到较好的跟踪结果。

  12. Dan Oneata, Jérôme Revaud, Jakob Verbeek, and Cordelia Schmid. 2014. Spatiotemporal object detection proposals. In European conference on computer vision. Springer, 737–752.
    本文提出基于超体素单元的合并来获得视频的细管状提议,又提出一种新颖的产生超体素的方法,从对每帧所提取的超像素进行结构化聚类开始进行。

  13. Xindi Shang, Tongwei Ren, Hanwang Zhang, Gangshan Wu, and Tat-Seng Chua.2017. Object trajectory proposal. In IEEE International Conference on Multimedia and Expo. IEEE.
    本文提出一种产生物体轨迹提议的方法,也就是将移动物体与静止物体区分开来分 别产生轨迹提议,然后进行统一评价排序,合并最优结果。

Visual relation detection

  1. Bo Dai, Yuqi Zhang, and Dahua Lin. 2017. Detecting Visual Relationships With Deep Relational Networks. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE.
    本文针对视觉关系检测任务提出了一个新的框架,综合考虑表观特征、空间结构以及主宾与谓词间的统计依赖,分别预测主谓宾。

  2. Yikang Li, Wanli Ouyang, Xiaogang Wang, and Xiao’ou Tang. 2017. ViP-CNN: Visual Phrase Guided Convolutional Neural Network. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE.
    本文提出了一种以视觉短语为指导的消息传递结构,更好地对各个预测分支模型之间的相互依赖关系进行建模。

  3. Xiaodan Liang, Lisa Lee, and Eric P. Xing. 2017. Deep Variation-Structured Reinforcement Learning for Visual Relationship and Attribute Detection. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE.
    本文通过对图片中出现的物体、关系、属性构建全局语义图,运用一种变化结构化的遍历策略和增强学习来实现模型的运作。

  4. Cewu Lu, Ranjay Krishna, Michael Bernstein, and Li Fei-Fei. 2016. Visual relationship detection with language priors. In European Conference on Computer Vision. Springer, 852–869.
    本文通过利用关系中的主谓宾的语义信息和表观特征来进行建模,并引入了新的数据集Visual Relationship Dataset。

  5. Hanwang Zhang, Zawlin Kyaw, Shih-Fu Chang, and Tat-Seng Chua. 2017. Visual Translation Embedding Network for Visual Relation Detection. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE.
    本文通过利用translation embedding的思想将主语物体的特征与宾语物体的特征之间的差与它们之间的谓语关系建立等式,进行关系检测的建模。

  6. Hanwang Zhang, Zawlin Kyaw, Jinyang Yu, and Shih-Fu Chang. 2017. PPR-FCN:Weakly Supervised Visual Relation Detection via Parallel Pairwise R-FCN. In IEEE International Conference on Computer Vision. IEEE.
    本文提出了一个基于成对的区域的并行全卷积神经网络,解决弱监督的视觉关系检测任务。

  7. Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, Bernt Schiele, and Manfred Pinkal. 2013. Grounding action descriptions in videos. Transactions of the Association for Computational Linguistics 1 (2013), 25–36.
    本文针对视频中发生的动作提出了一个具有多模态的语料库,为比较动作短语的相似性建立了标准的数据集并报告了有关视频中动作相似性的·实验结果。

  8. C Lawrence Zitnick, Devi Parikh, and Lucy Vanderwende. 2013. Learning the visual interpretation of sentences. In IEEE International Conference on Computer Vision. IEEE, 1681–1688.
    通过对句子进行关系三元组的提取,并对提取之后的这些元组进行特征学习,来解决场景生成和场景索引的任务。

Action recognition

  1. An-An Liu, Yu-Ting Su,Wei-Zhi Nie, and Mohan Kankanhalli. 2017. Hierarchical clustering multi-task learning for joint human action grouping and recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 39, 1 (2017), 102–114.
    本文针对人类动作分组和识别任务,提出了一个分层群聚的多任务学习方法。

  2. Li Niu, Xinxing Xu, Lin Chen, Lixin Duan, and Dong Xu. 2016. Action and event recognition in videos by learning from heterogeneous web sources. IEEE Transactions on Neural Networks and Learning Systems (2016).
    本文通过对多种异质资源提取特征并进行融合,来训练出鲁棒的分类器。

  3. Yan Yan, Elisa Ricci, Ramanathan Subramanian, Gaowen Liu, and Nicu Sebe. 2014. Multitask linear discriminant analysis for view invariant action recognition. IEEE Transactions on Image Processing 23, 12 (2014), 5599–5611.
    本文通过对人类动作的多个视角的特征进行提取,然后用多任务的线性判别分析框架对提取到的特征进行学习,从而实现对人类动作的识别。

  4. Yu-Gang Jiang, Qi Dai, Xiangyang Xue, Wei Liu, and Chong-Wah Ngo. 2012. Trajectory-based modeling of human actions with motion reference points. In European Conference on Computer Vision. Springer, 425–438.
    本文采用全局和局部参考点来特征化移动信息,对相机移动有较好的鲁棒性,同时将物体间的关系考虑进去,产生了较好的行为特征表示。

  5. Heng Wang and Cordelia Schmid. 2013. Action recognition with improved trajectories. In IEEE International Conference on Computer Vision. IEEE, 3551– 3558.
    本文通过显式地估计相机移动来改善密集轨迹。

  6. Karen Simonyan and Andrew Zisserman. 2014. Two-stream convolutional networks for action recognition in videos. In Advances in Neural Information Processing Systems. 568–576.
    本文首次提出two stream网络,主要分为两个流,空间流处理静止图像帧,得到形状信息,时间流处理连续多帧稠密光流,得到运动信息。

  1. LiminWang, Yu Qiao, and Xiaoou Tang. 2015. Action recognition with trajectory-pooled deep-convolutional descriptors. In IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 4305–4314.
    本文在iDT和two-stream ConvNets的基础上,对提取出来的卷积特征图实施受限于轨迹的采样与池化来获得轨迹池化的深度卷积描述子。

survey about video-related work in computer vision

  1. Zheng Shou, Dongang Wang, Shih-Fu Chang:Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs. CVPR 2016: 1049-1058
  2. Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh:Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? CoRR abs/1711.09577 (2017)
  3. Colin Lea, Michael D. Flynn, René Vidal, Austin Reiter, Gregory D. Hager:Temporal Convolutional Networks for Action Segmentation and Detection. CVPR 2017: 1003-1012
  4. Du Tran, Lubomir D. Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri:Learning Spatiotemporal Features with 3D Convolutional Networks. ICCV 2015: 4489-4497
  5. Zheng Shou, Jonathan Chan, Alireza Zareian, Kazuyuki Miyazawa, Shih-Fu Chang:CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos. CVPR 2017: 1417-1426
  6. Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu, Xiaogang Wang:Object Detection in Videos with Tubelet Proposal Networks. CVPR 2017: 889-897
  7. Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin:Temporal Action Detection with Structured Segment Networks. ICCV 2017: 2933-2942
  8. Xizhou Zhu, Yujie Wang, Jifeng Dai, Lu Yuan, Yichen Wei:Flow-Guided Feature Aggregation for Video Object Detection. ICCV 2017: 408-417
  9. Yuan, Xiaodan Liang, Xiaolong Wang, Dit-Yan Yeung, Abhinav Gupta:Temporal Dynamic Graph LSTM for Action-Driven Video Object Detection. ICCV 2017: 1819-1828
  10. Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan, Yichen Wei:Deep Feature Flow for Video Recognition. CVPR 2017: 4141-4150
  11. Khurram Soomro, Mubarak Shah:Unsupervised Action Discovery and Localization in Videos. ICCV 2017: 696-705
  12. Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, Luc Van Gool:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. ECCV (8) 2016: 20-36
  13. Ke Yang, Peng Qiao, Dongsheng Li, Shaohe Lv, Yong Dou:Exploring Temporal Preservation Networks for Precise Temporal Action Localization. AAAI 2018
  14. Victor Escorcia, Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem:DAPs: Deep Action Proposals for Action Understanding. ECCV (3) 2016: 768-784
  15. Rui Hou, Chen, Mubarak Shah:Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos. ICCV 2017: 5823-5832
  16. Yicong Tian, Rahul Sukthankar, Mubarak Shah:Spatiotemporal Deformable Part Models for Action Detection. CVPR 2013: 2642-2649
  17. Xiaojiang Peng, Cordelia Schmid:Multi-region Two-Stream R-CNN for Action Detection. ECCV (4) 2016: 744-759
  18. Serena Yeung, Olga Russakovsky, Greg Mori, Li Fei-Fei:End-to-End Learning of Action Detection from Frame Glimpses in Videos. CVPR 2016: 2678-2687
  19. Shugao Ma, Jianming Zhang, Nazli Ikizler-Cinbis, Stan Sclaroff:Action Recognition and Localization by Hierarchical Space-Time Segments. ICCV 2013: 2744-2751
  20. Dan Oneata, Jakob J. Verbeek, Cordelia Schmid:Efficient Action Localization with Approximately Normalized Fisher Vectors. CVPR 2014: 2545-2552

[1]提出了一种用于时序动作定位的多阶段3D卷积网络,包括多尺度视频片段的生成、多阶段segment-CNN以及后处理(temporal action localization)。
[2]观察到深度2D卷积神经网络经过ImageNet数据集预训练后迁移到detection,segmentation,captioning等其他任务上取得的显著成就后,尝试在Kinetics数据集上对深度3D卷积神经网络预训练,观察迁移到detection、summarization以及Optical flow的提取等任务上的效果(action recognition)。
[3]提出了一个基于时序卷积的卷积-逆卷积网络,来实现对视频帧的类别分类(action segmentation and detection)。
[4]提出了一种用于提取视频时空特征的3D卷积神经网络(action recognition)。
[5]基于C3D提出了一种卷积-逆卷积的神经网络,输入一小段视频,输出frame-level的动作类别概率和segment-level的时序动作定位(temporal action localization)。
[6]将传统针对静止图像的FasterRCNN框架进行了扩展,将视频物体检测框架扩展为候选时空管道生成和候选时空管道识别两个模块,基于这些高质量的候选时空管道应用编码-解码LSTM网络进行时空管道的识别能够有效的提升检测整体的正确率(video object detection)。
[7]提出了一种结构化分段的时序金字塔网络,既产生高质量的动作提议又提升了对动作的准确识别率和定位(temporal action localization)。
[8]提出使用时间域的聚合提升单帧特征学习,使得对视频中每一帧的物体识别率得到提高(video object detection)。
[9]提出了一种以动作描述驱动的时序动态图网络(video object detection)。
[10]利用视频中连续帧内容高度相关这一特点只对关键帧计算CNN特征提取,然后通过一个flow field将关键帧的CNN特征propagte到其他帧去,减少了计算量(video object detection)。
[11]提出了一种对视频动作进行聚类、标记以及定位的无监督方法(temporal action localization)。
[12]提出一种时序分段网络,并基于two-stream法进行改进(action recognition)。
[13]基于[5]提出TPN(temporal preservation networks)模型,将temporal convolution替换为temporal preservation convolution能够在不进行时序池化操作的情况下获得同样大小的感受野而不缩短时序长度,从而更好地保留时序信息(temporal action localization)。
[14]提出了一种产生动作提议的高效算法(temporal action localization)。
[15]提出一种管道卷积神经网络,先将一个视频分成clips,分别从clips中产生候选动作管道,然后这些clips中的候选管道进行合理地衔接,最后对这些衔接好的候选管道进行动作检测(temporal action detection)。
[16]提出了一种时空可变部分模型(SDPM),对每类动作学习出一种时空模式,也就是将这种时空模式与目标动作进行尽可能地匹配(temporal action localization)。
[17]提出一种多区域的two-stream Faster R-CNN网络,在appearance R-CNN和motion R-CNN中选择多个身体区域(即上半身、下半身和边界区域)来提高帧级动作检测的性能(temporal action localization)。
[18]提出了一种通过预测待处理的下一帧位置来逐步完成对视频的动作检测(temporal action localization)。
[19]提出一种对视频帧的层级式的分割表示方法,第一层表示出该视频帧的最基本的分割(root),第二层则更细粒度地将root进行分割表示(temporal action localization)。
[20]基于对图片的费舍向量表示提出了对视频的近似的正则化费舍向量表示方法(temporal action localization)。

Temporal Action Detection with Structured Segment Networks笔记

先说说这篇论文主要研究什么?
简而言之,就是对视频中出现的行为进行检测,目标是预测行为的类别和行为所在的时序区间。
本文提出了一种结构化的分段网络,这样更容易提炼出视频中关于行为的信息,并采用TAG(temporal actionness grouping)来产生高质量的行为提议。下面来分别对这两种新点子讲讲自己的理解:
Structured Segment Network:
baf323.png
该网络采用了一种结构化的时序金字塔池化方法(STPP)对提议(proposal)进行提取特征。首先将原始视频进行分帧,然后用TAG方法产生许多proposal。对于每一个proposal,对其进行增广后,文中提出将其分割成L个段(segment),然后从这L个段中分别采样出一个片段(snippet)来。这一个snippet是由一些连续的帧和这些帧对应的光流图像(一个帧对应到许多光流图像,光流图像是另外从视频中计算提取)组成,即是单帧表示静态内容,许多光流图像表示对应的动态内容。这样的话就产生了L个snippets,而增广提议被分割成三个阶段(starting,course,ending),这样每个阶段都包含了一定数目的snippets,总和加起来是L。 具体来说,文中提出对这三个阶段的处理都不同。对于course阶段,文中提出把它分两级,第一级就是一个部分,第二级分为两个部分。对于starting和ending的阶段,直接就是一级,这样的话总共就是5个部分。然后将这5个部分里面的snippet送入特征提取器(feature extractor),得到Vt。对于代表每个部分的池化特征,文中提出这样计算:
d8659d.png
最后将所有的池化特征进行联结,得到这个代表整个增广提议的全局特征,送入两种分类器中。这两种分类器一类是多类行为分类器,另一类是一系列二元完整性分类器。多类行为分类器对视频中的行为分为K+1类,K种行为外加一个背景类,这种分类器只对course阶段的三个部分所提取联结成的全局特征进行处理。而一系列(K个)二元完整性分类器是对所有部分所提取联结成的全局特征进行处理。这两种分类器的结果进行综合便得到行为所属的类别。
34a543.png
我解释下上述的计算分类loss的公式,第一项是在给定提议pi下,求该提议中出现行为类别ci(ci属于K+1个类别之一)的概率,进行交叉熵计算。然后第二项只对非背景类进行计算,在给定提议pi下并且确定了其中包含的行为类别ci,求该提议下行为是完整(bi用来表示行为是完整的)的概率,进行交叉熵计算。最后把这两项交叉熵加起来得到总的分类损失。对于用TAG产生的proposals,文中提出将其分为三类标签,分别是(ci>0,bi=1),ci=0,(ci>0,bi=0),也就是提议中出现行为并且行为是完整的、提议中没有出现行为即只出现背景、提议中出现行为但不完整(具体怎么打这三个标签得依据最近的groundtruth)。在训练的时候,实际上这个分类损失就是网络模型对proposal预测的值(提议中出现某类行为的概率)与该proposal本身的标签之间进行比较而来的。
00d043.png
对于行为的定位,文中提出与RCNN中盒回归类似的时序回归方法即是对正提议pi(positive proposal,ci>0,bi=1)的中心ui,和长度θi(log尺度)相对于groundtruth的变化进行回归,这个groundtruth指的是与该正提议最接近的groundtruth 。至于回归函数,文中提出用smooth L1损失函数,然后将这两类损失进行相加得到上述的多任务损失。用λ来调整两个损失的重要性。

下面再讲讲TAG(temporal actionness grouping,时序行为性分组)技术的原理。首先这个技术是用来产生proposal的,相比于其他产生proposal的方法,这个技术产生的数量更少并且更好。
188580.png
首先用一个二元行为性分类器对从视频中提取出的一系列snippets进行分类,得到结果就如上图蓝色线所示。然后倒过来得到红色线,用分水岭算法对红色线所示的低洼进行处理,即是用不同级别γ的水对低洼进行灌溉。低洼越低,所在的水级颜色越深。最后把这些流域(basins)G(γ)提出来得到红线之下的方块图。然后我再说说产生proposal的方块合并策略,从第一个方块开始,逐渐加入紧随着的方块,若用方块的底边之和除以第一个方块的左边界到最后加入的方块的右边界之间的长度所计算出来的值低于阈值T时,第一块的左边界到最后加入的一块的右边界之间的段作为一个proposal。文中提出从0到1之间以0.05的步长来设置一系列γ和T,用这些参数采用TAG方法产生出proposals,最后用NMS(非极大值抑制)方法去除高度重合的proposal来得到最终的proposals。

总结一下,文中提出的这种对proposal增广又分级进行处理的策略着实有效,TAG技术的运用使得proposal的质量大大提高,具体细节请看原文(在第一行“论文”两字上),想要交流的可在下面评论^_^

新的开始

费了好几天,终于把自己的网站弄好了。之前一直用CSDN托管的傻瓜式博客,感觉没多大意思。所以想自己建个网站,由于github免费提供服务器托管网页,那就直接考虑git+hexo的方式建站。

然后自己看了看廖雪峰的git教程,受益颇多。然后根据这篇博客就搭建了现在这个网站,感觉良好:)

至于为什么要写博客,我列如下几个原因:

  • 感觉学习效率不高,用博客来记录学习历程应该很有趣并可以提高学习的效率;
  • 写博客的话会让生活更加充实,我有幸看到一位大牛的博客,并不是想盲目模仿别人而是觉得这种方式的确会让生活不会太无聊;
  • 因为自己有继续深造的想法,那么好好打造自己应该先从一个blogger开始。

对于这个新的博客,我想多写写自己的东西,而不是一昧地去转载别人的。
之前的CSDN博客就是这样的,自己的东西还是少,主要是收藏别人的东西。

对于要写的东西,我做了如下几点分类:

  • 与自己研究方向相关的东西
  • 在生活中遇到的一些有趣的事
  • 对人生和世界的思考

最后以一幅图结尾,

icon

只希望品人生百味,或喜或悲,前途路上处处皆风景!

Hello World

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1
$ hexo new "My New Post"

More info: Writing

Run server

1
$ hexo server

More info: Server

Generate static files

1
$ hexo generate

More info: Generating

Deploy to remote sites

1
$ hexo deploy

More info: Deployment