🧬Vision Recognition

Action Recognition

Recognizing actions in videos

100 papers2,401 total citations

Compare with other topics

Mar '24 — Feb '26445 papers

Top Conferences

CVPR: 40 ECCV: 24 AAAI: 18 ICLR: 7 ICCV: 6 NeurIPS: 4

Top Papers

#1

Video-P2P: Video Editing with Cross-attention Control

Shaoteng Liu, Yuechen Zhang, Wenbo Li et al.

Move as You Say Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

Zan Wang, Yixin Chen, Baoxiong Jia et al.

Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection

Zhiwei Yang, Jing Liu, Peng Wu

Learning to Act without Actions

Dominik Schmidt, Minqi Jiang

HARDVS: Revisiting Human Activity Recognition with Dynamic Vision Sensors

Xiao Wang, Zongzhen Wu, Bo Jiang et al.

AAAI 2024arXiv:2211.09648

human activity recognitiondynamic vision sensorsevent camerasspatial-temporal feature learning+3

64

citations

#6

Open-Vocabulary Video Anomaly Detection

Peng Wu, Xuerong Zhou, Guansong Pang et al.

Koala: Key Frame-Conditioned Long Video-LLM

Reuben Tan, Ximeng Sun, Ping Hu et al.

Animate-X: Universal Character Image Animation with Enhanced Motion Representation

Shuai Tan, Biao Gong, Xiang Wang et al.

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors

Nicolae Ristea, Florinel Croitoru, Radu Tudor Ionescu et al.

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

Shuming Liu, Chenlin Zhang, Chen Zhao et al.

ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions

Anindita Ghosh, Rishabh Dabral, Vladislav Golyanik et al.

ECCV 2024arXiv:2311.17057

3d motion synthesishuman motion synthesisdenoising diffusion modelstwo-person interactions+4

50

citations

#12

Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification

Pingping Zhang, Yuhao Wang, Yang Liu et al.

Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model

Long Le, Jason Xie, William Liang et al.

ICLR 2025arXiv:2410.13882

vision-language modelsarticulated object modeling3d asset generationmesh retrieval+4

42

citations

#14

Universal Actions for Enhanced Embodied Foundation Models

Jinliang Zheng, Jianxiong Li, Dongxiu Liu et al.

Prototypical Calibrating Ambiguous Samples for Micro-Action Recognition

Kun Li, Dan Guo, Guoliang Chen et al.

VicTR: Video-conditioned Text Representations for Activity Recognition

Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani et al.

AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP

wenxin ma, Xu Zhang, Qingsong Yao et al.

SpikePoint: An Efficient Point-based Spiking Neural Network for Event Cameras Action Recognition

Hongwei Ren, Yue ZHOU, Xiaopeng LIN et al.

REACTO: Reconstructing Articulated Objects from a Single Video

Chaoyue Song, Jiacheng Wei, Chuan-Sheng Foo et al.

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Rui Qian, Shuangrui Ding, Xiaoyi Dong et al.

CVPR 2025arXiv:2501.03218

video large language modelsactive real-time interactionstreaming video processingdisentangled system architecture+4

31

citations

#21

PREGO: Online Mistake Detection in PRocedural EGOcentric Videos

Alessandro Flaborea, Guido M. D&amp, #x27 et al.

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

Hanzhi Chen, Boyang Sun, Anran Zhang et al.

ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding

Yiyang Zhou, Yangfan He, Yaofeng Su et al.

NeurIPS 2025arXiv:2506.01300

video understandingreward-driven agentsmulti-agent frameworkvision-language models+4

29

citations

#24

NARUTO: Neural Active Reconstruction from Uncertain Target Observations

Ziyue Feng, Huangying Zhan, Zheng Chen et al.

Navigating Open Set Scenarios for Skeleton-Based Action Recognition

Kunyu Peng, Cheng Yin, Junwei Zheng et al.

AAAI 2024arXiv:2312.06330

skeleton-based action recognitionopen set recognitioncross-modality alignmentdistance-based classification+3

26

citations

#26

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

Xinhao Liu, Jintong Li, Yicheng Jiang et al.

CVPR 2025arXiv:2411.17820

25

citations

#27

SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-Supervised Skeleton-Based Action Recognition

Cong Wu, Xiao-Jun Wu, Josef Kittler et al.

AAAI 2024arXiv:2309.05834

skeleton-based action recognitioncontrastive learningspatiotemporal disentanglementmasked image modeling+4

24

citations

#28

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Yaoting Wang, Peiwen Sun, Dongzhan Zhou et al.

ECCV 2024arXiv:2407.10957

audio-visual segmentationreference segmentationmultimodal perceptionmultimodal-cue expressions+2

23

citations

#29

PALM: Predicting Actions through Language Models

Sanghwan Kim, Daoji Huang, Yongqin Xian et al.

ECCV 2024arXiv:2311.17944

egocentric visionlong-term action anticipationaction recognition modelvision-language model+3

21

citations

#30

Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature

Wu Yun, Mengshi Qi, Chuanming Wang et al.

AAAI 2024arXiv:2303.12332

weakly-supervised temporal action localizationsalient snippet-feature inferencepseudo label generationtemporal structure exploitation+3

21

citations

#31

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

Le Yang, Ziwei Zheng, Yizeng Han et al.

ElasticTok: Adaptive Tokenization for Image and Video

Wilson Yan, Volodymyr Mnih, Aleksandra Faust et al.

VideoMAC: Video Masked Autoencoders Meet ConvNets

Gensheng Pei, Tao Chen, Xiruo Jiang et al.

Learning to Predict Activity Progress by Self-Supervised Video Alignment

Gerard Donahue, Ehsan Elhamifar

AMEGO: Active Memory from long EGOcentric videos

Gabriele Goletto, Tushar Nagarajan, Giuseppe Averta et al.

HR-Pro: Point-Supervised Temporal Action Localization via Hierarchical Reliability Propagation

Huaxin Zhang, Xiang Wang, Xiaohao Xu et al.

AAAI 2024arXiv:2308.12608

temporal action localizationpoint-supervised learninghierarchical reliability propagationsnippet-level discrimination+3

19

citations

#37

Improving Video Segmentation via Dynamic Anchor Queries

Yikang Zhou, Tao Zhang, Xiangtai Li et al.

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation

Hongxiang Zhao, Xingchen Liu, Mutian Xu et al.

MoST: Motion Style Transformer Between Diverse Action Contents

Boeun Kim, Jungho Kim, Hyung Jin Chang et al.

Vid2Avatar-Pro: Authentic Avatar from Videos in the Wild via Universal Prior

Chen Guo, Junxuan Li, Yash Kant et al.

Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition

Mingfang Zhang, Yifei Huang, Ruicong Liu et al.

HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos

Jinglei Zhang, Jiankang Deng, Chao Ma et al.

Adapting Short-Term Transformers for Action Detection in Untrimmed Videos

Min Yang, gaohuan, Ping Guo et al.

Semi-supervised Active Learning for Video Action Detection

Ayush Singh, Aayush J Rana, Akash Kumar et al.

AAAI 2024arXiv:2312.07169

semi-supervised active learningvideo action detectionspatio-temporal localizationinformative sample selection+3

16

citations

#45

Evidential Active Recognition: Intelligent and Prudent Open-World Embodied Perception

Lei Fan, Mingfu Liang, Yunxuan Li et al.

Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition

Hongda Liu, Yunfan Liu, Min Ren et al.

Align Before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition

Yifei Chen, Dapeng Chen, Ruijin Liu et al.

An Empirical Study of Autoregressive Pre-training from Videos

Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar et al.

SAFE: Multitask Failure Detection for Vision-Language-Action Models

Qiao Gu, Yuanliang Ju, Shengxiang Sun et al.

Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos

Remy Sabathier, David Novotny, Niloy Mitra

UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection

Yingsen Zeng, Yujie Zhong, Chengjian Feng et al.

ECCV 2024arXiv:2404.04933

moment retrievaltemporal action detectiontask fusion learningunified video understanding+3

14

citations

#52

Online Reasoning Video Segmentation with Just-in-Time Digital Twins

Yiqing Shen, Bohan Liu, Chenjia Li et al.

Event-Adapted Video Super-Resolution

Zeyu Xiao, Dachun Kai, Yueyi Zhang et al.

Video Anomaly Detection with Motion and Appearance Guided Patch Diffusion Model

Hang Zhou, Jiale Cai, Yuteng Ye et al.

Referring Atomic Video Action Recognition

Kunyu Peng, Jia Fu, Kailun Yang et al.

Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation

Zhi Cen, Huaijin Pi, Sida Peng et al.

ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

Yupeng Hou, Jianmo Ni, Zhankui He et al.

Exploring More from Multiple Gait Modalities for Human Identification

Dongyang Jin, Chao Fan, Weihua Chen et al.

EvSign: Sign Language Recognition and Translation with Streaming Events

Pengyu Zhang, Hao Yin, Zeren Wang et al.

ECCV 2024arXiv:2407.12593

13

citations

#60

Perception-as-Control: Fine-grained Controllable Image Animation with 3D-aware Motion Representation

Yingjie Chen, Yifang Men, Yuan Yao et al.

ICCV 2025arXiv:2501.05020

13

citations

#61

On the Utility of 3D Hand Poses for Action Recognition

Md Salman Shamil, Dibyadip Chatterjee, Fadime Sener et al.

CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion

Yunlong Tang, Gen Zhan, Li Yang et al.

Real Appearance Modeling for More General Deepfake Detection

Jiahe Tian, Yu Cai, Xi Wang et al.

ECCV 2024

deepfake detectiongeneralizable detectionreal appearance modelingface disturbance+2

12

citations

#64

RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos

Tanveer Hannan, Mohaiminul Islam, Thomas Seidl et al.

DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition

Qi Wang, Zhou Xu, Yuming Lin et al.

CLIMB-ReID: A Hybrid CLIP-Mamba Framework for Person Re-Identification

Chenyang Yu, Xuehu Liu, Jiawen Zhu et al.

Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content

Rohit Kundu, Hao Xiong, Vishal Mohanty et al.

CrossGLG: LLM Guides One-shot Skeleton-based 3D Action Recognition in a Cross-level Manner

Tingbing Yan, Wenzheng Zeng, Yang Xiao et al.

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding

Shehreen Azad, Vibhav Vineet, Yogesh S. Rawat

CVPR 2025arXiv:2503.08585

12

citations

#70

ExpertAF: Expert Actionable Feedback from Video

Kumar Ashutosh, Tushar Nagarajan, Georgios Pavlakos et al.

Efficient Few-Shot Action Recognition via Multi-Level Post-Reasoning

Cong Wu, Xiao-Jun Wu, Linze Li et al.

Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph

Zhengcen Li, Xinle Chang, Yueran Li et al.

Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition

Bozheng Li, Mushui Liu, Gaoang Wang et al.

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

Muzhi Zhu, Yuzhuo Tian, Hao Chen et al.

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning

Baoqi Pei, Yifei Huang, Jilan Xu et al.

ICLR 2025arXiv:2503.00986

11

citations

#76

SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos

Changan Chen, Kumar Ashutosh, Rohit Girdhar et al.

MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild

Xi Fang, Jiankun Wang, Xiaochen Cai et al.

Gazing Into Missteps: Leveraging Eye-Gaze for Unsupervised Mistake Detection in Egocentric Videos of Skilled Human Activities

Michele Mazzamuto, Antonino Furnari, Yoichi Sato et al.

UCF-Crime-DVS: A Novel Event-Based Dataset for Video Anomaly Detection with Spiking Neural Networks

Yuanbin Qian, Shuhan Ye, Chong Wang et al.

TACO: Taming Diffusion for in-the-wild Video Amodal Completion

Ruijie Lu, Yixin Chen, Yu Liu et al.

Live and Learn: Continual Action Clustering with Incremental Views

Xiaoqiang Yan, Yingtao Gan, Yiqiao Mao et al.

AAAI 2024arXiv:2404.07962

multi-view action clusteringcontinual learningincremental camera viewsconsensus partition matrix+2

9

citations

#82

AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation

Lorenzo Mur Labadia, Ruben Martinez-Cantin, Jose J Guerrero et al.

ActionVOS: Actions as Prompts for Video Object Segmentation

LIANGYANG OUYANG, Ruicong Liu, Yifei Huang et al.

ECCV 2024arXiv:2407.07402

referring video object segmentationegocentric visionaction-aware segmentationvideo object segmentation+2

9

citations

#84

Limitations in Employing Natural Language Supervision for Sensor-Based Human Activity Recognition - And Ways to Overcome Them

Harish Haresamudram, Apoorva Beedu, Mashfiqui Rabbi et al.

HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction

Jikai Wang, Qifan Zhang, Yu-Wei Chao et al.

ProMotion: Prototypes As Motion Learners

Yawen Lu, Dongfang Liu, Qifan Wang et al.

Efficient 3D Recognition with Event-driven Spike Sparse Convolution

Xuerui Qiu, Man Yao, Jieyuan Zhang et al.

Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos

Ekta Prashnani, Koki Nagano, Shalini De Mello et al.

Task-Aware Encoder Control for Deep Video Compression

Xingtong Ge, Jixiang Luo, XINJIE ZHANG et al.

A Multimodal, Multi-Task Adapting Framework for Video Action Recognition

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang et al.

AAAI 2024arXiv:2401.11649

video action recognitionvision-language pretrained modelsparameter-efficient fine-tuningmultimodal adapters+3

8

citations

#91

Instruction-based Image Manipulation by Watching How Things Move

Mingdeng Cao, Xuaner Zhang, Yinqiang Zheng et al.

Towards Scene Graph Anticipation

Rohith Peddi, Saksham Singh, Saurabh . et al.

MammAlps: A Multi-view Video Behavior Monitoring Dataset of Wild Mammals in the Swiss Alps

Valentin Gabeff, Haozhe Qi, Brendan Flaherty et al.

Generalizable Sensor-Based Activity Recognition via Categorical Concept Invariant Learning

Di Xiong, Shuoyuan Wang, Lei Zhang et al.

KinMo: Kinematic-aware Human Motion Understanding and Generation

Pengfei Zhang, Pinxin Liu, Pablo Garrido et al.

Language Model Guided Interpretable Video Action Reasoning

Ning Wang, Guangming Zhu, Hongsheng Li et al.

Elucidating the Hierarchical Nature of Behavior with Masked Autoencoders

Lucas Stoffl, Andy Bonnetto, Stéphane D'Ascoli et al.

ECCV 2024

masked autoencodershierarchical behavior analysisaction segmentationmotion capture data+4

7

citations

#98

HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation

Trong-Thuan Nguyen, Pha Nguyen, Jackson Cothren et al.

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

Hengzhi Li, Megan Tjandrasuwita, Yi R. (May) Fung et al.

NeurIPS 2025arXiv:2502.16671

nonverbal social understandingvideo question answeringsocial reasoningvideo large language models+4

7

citations

#100

ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping

Youxin Pang, Ruizhi Shao, Jiajun Zhang et al.

CVPR 2025arXiv:2412.16212

7

citations

Action Recognition

Top Conferences

Related Topics (Vision Recognition)

Top Papers

Video-P2P: Video Editing with Cross-attention Control

Move as You Say Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection

Learning to Act without Actions

HARDVS: Revisiting Human Activity Recognition with Dynamic Vision Sensors

Open-Vocabulary Video Anomaly Detection

Koala: Key Frame-Conditioned Long Video-LLM

Animate-X: Universal Character Image Animation with Enhanced Motion Representation

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions

Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification

Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model

Universal Actions for Enhanced Embodied Foundation Models

Prototypical Calibrating Ambiguous Samples for Micro-Action Recognition

VicTR: Video-conditioned Text Representations for Activity Recognition

AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP

SpikePoint: An Efficient Point-based Spiking Neural Network for Event Cameras Action Recognition

REACTO: Reconstructing Articulated Objects from a Single Video

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

PREGO: Online Mistake Detection in PRocedural EGOcentric Videos

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding

NARUTO: Neural Active Reconstruction from Uncertain Target Observations

Navigating Open Set Scenarios for Skeleton-Based Action Recognition

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-Supervised Skeleton-Based Action Recognition

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

PALM: Predicting Actions through Language Models

Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

ElasticTok: Adaptive Tokenization for Image and Video

VideoMAC: Video Masked Autoencoders Meet ConvNets

Learning to Predict Activity Progress by Self-Supervised Video Alignment

AMEGO: Active Memory from long EGOcentric videos

HR-Pro: Point-Supervised Temporal Action Localization via Hierarchical Reliability Propagation

Improving Video Segmentation via Dynamic Anchor Queries

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation

MoST: Motion Style Transformer Between Diverse Action Contents

Vid2Avatar-Pro: Authentic Avatar from Videos in the Wild via Universal Prior

Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition

HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos

Adapting Short-Term Transformers for Action Detection in Untrimmed Videos

Semi-supervised Active Learning for Video Action Detection

Evidential Active Recognition: Intelligent and Prudent Open-World Embodied Perception

Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition

Align Before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition

An Empirical Study of Autoregressive Pre-training from Videos

SAFE: Multitask Failure Detection for Vision-Language-Action Models

Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos

UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection

Online Reasoning Video Segmentation with Just-in-Time Digital Twins

Event-Adapted Video Super-Resolution

Video Anomaly Detection with Motion and Appearance Guided Patch Diffusion Model

Referring Atomic Video Action Recognition

Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation

ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

Exploring More from Multiple Gait Modalities for Human Identification

EvSign: Sign Language Recognition and Translation with Streaming Events

Perception-as-Control: Fine-grained Controllable Image Animation with 3D-aware Motion Representation

On the Utility of 3D Hand Poses for Action Recognition

CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion

Real Appearance Modeling for More General Deepfake Detection

RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos

DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition

CLIMB-ReID: A Hybrid CLIP-Mamba Framework for Person Re-Identification

Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content

CrossGLG: LLM Guides One-shot Skeleton-based 3D Action Recognition in a Cross-level Manner

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding

ExpertAF: Expert Actionable Feedback from Video

Efficient Few-Shot Action Recognition via Multi-Level Post-Reasoning

Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph

Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning

SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos