🧬Video Analysis

Object Tracking

Tracking objects across video frames

100 papers5,396 total citations

Compare with other topics

Feb '24 — Jan '26763 papers

Top Conferences

CVPR: 61 AAAI: 14 ECCV: 11 ICCV: 7 ICLR: 6 NeurIPS: 1

Top Papers

#1

CoTracker: It is Better to Track Together

Nikita Karaev, Ignacio Rocco, Ben Graham et al.

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

Bowen Wen, Wei Yang, Jan Kautz et al.

Video-P2P: Video Editing with Cross-attention Control

Shaoteng Liu, Yuechen Zhang, Wenbo Li et al.

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

Nikita Karaev, Iurii Makarov, Jianyuan Wang et al.

Putting the Object Back into Video Object Segmentation

Ho Kei Cheng, Seoung Wug Oh, Brian Price et al.

ODTrack: Online Dense Temporal Token Learning for Visual Tracking

Yaozong Zheng, Bineng Zhong, Qihua Liang et al.

AAAI 2024arXiv:2401.01686

visual trackingonline trackingtemporal token learningtoken propagation+3

173

citations

#7

OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning

Lingyi Hong, Shilin Yan, Renrui Zhang et al.

FoundationStereo: Zero-Shot Stereo Matching

Bowen Wen, Matthew Trepte, Oluwaseun Joseph Aribido et al.

UCMCTrack: Multi-Object Tracking with Uniform Camera Motion Compensation

Kefu Yi, Kai Luo, Xiaolei Luo et al.

AAAI 2024arXiv:2312.08952

multi-object trackingcamera motion compensationkalman filterhomography projection+4

97

citations

#10

HIPTrack: Visual Tracking with Historical Prompts

Wenrui Cai, Qingjie Liu, Yunhong Wang

Single-Model and Any-Modality for Video Object Tracking

Zongwei Wu, Jilai Zheng, Xiangxuan Ren et al.

Event Stream-based Visual Object Tracking: A High-Resolution Benchmark Dataset and A Novel Baseline

Xiao Wang, Shiao Wang, Chuanming Tang et al.

NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis

Nilesh Kulkarni, Davis Rempe, Kyle Genova et al.

General Object Foundation Model for Images and Videos at Scale

Junfeng Wu, Yi Jiang, Qihao Liu et al.

Temporal Adaptive RGBT Tracking with Modality Prompt

Hongyu Wang, Xiaotao Liu, Yifan Li et al.

AAAI 2024arXiv:2401.01244

rgbt trackingmodality promptspatio-temporal interactiononline template update+4

71

citations

#16

Adaptive Keyframe Sampling for Long Video Understanding

Xi Tang, Jihao Qiu, Lingxi Xie et al.

CVPR 2025arXiv:2502.21271

adaptive keyframe samplinglong video understandingmultimodal large language modelsvideo token selection+2

68

citations

#17

TRAM: Global Trajectory and Motion of 3D Humans from in-the-wild Videos

Yufu Wang, Ziyun Wang, Lingjie Liu et al.

ECCV 2024arXiv:2403.17346

human motion reconstructionglobal trajectory estimationslam robustificationvideo transformer model+4

66

citations

#18

DiffusionTrack: Diffusion Model for Multi-Object Tracking

Run Luo, Zikai Song, Lintao Ma et al.

AAAI 2024arXiv:2308.09905

multi-object trackingdenoising diffusion processtracking-by-detectionjoint detection and tracking+3

65

citations

#19

Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

Shuting He, Henghui Ding

Koala: Key Frame-Conditioned Long Video-LLM

Reuben Tan, Ximeng Sun, Ping Hu et al.

DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

Narek Tumanyan, Assaf Singer, Shai Bagon et al.

Animate-X: Universal Character Image Animation with Enhanced Motion Representation

Shuai Tan, Biao Gong, Xiang Wang et al.

DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction

Weiyi Lv, Yuhang Huang, NING Zhang et al.

Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction

Junuk Cha, Jihyeon Kim, Jae Shin Yoon et al.

Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models

Lvmin Zhang, Shengqu Cai, Muyang Li et al.

NeurIPS 2025arXiv:2504.12626

video diffusion modelsnext-frame predictionframe context packingdrift prevention+4

56

citations

#26

Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

Lijie Liu, Tianxiang Ma, Bingchuan Li et al.

ICCV 2025arXiv:2502.11079

subject-consistent video generationcross-modal alignmenttext-to-video architectureimage-to-video architecture+4

55

citations

#27

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors

Nicolae Ristea, Florinel Croitoru, Radu Tudor Ionescu et al.

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

Jianhong Bai, Menghan Xia, Xintao WANG et al.

FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection

Yao Xiao, Tingfa Xu, Yu Xin et al.

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Songhao Han, Wei Huang, Hairong Shi et al.

Multiple Object Tracking as ID Prediction

Ruopeng Gao, Ji Qi, Limin Wang

CVPR 2025arXiv:2403.16848

multiple object trackingid predictionobject detectionobject association+3

53

citations

#32

AvatarGPT: All-in-One Framework for Motion Understanding Planning Generation and Beyond

Zixiang Zhou, Yu Wan, Baoyuan Wang

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

Shuming Liu, Chenlin Zhang, Chen Zhao et al.

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

Shuai Yang, Yifan Zhou, Ziwei Liu et al.

Neural Markov Random Field for Stereo Matching

Tongfan Guan, Chen Wang, Yun-Hui Liu

UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction

Lan Feng, Mohammadhossein Bahari, Kaouther Messaoud et al.

ECCV 2024arXiv:2403.15098

vehicle trajectory predictionunified frameworkdataset unificationcross-dataset generalization+4

47

citations

#37

M-LLM Based Video Frame Selection for Efficient Video Understanding

Kai Hu, Feng Gao, Xiaohan Nie et al.

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry

Weirong Chen, Le Chen, Rui Wang et al.

Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring

Xin Gao, Tianheng Qiu, Xinyu Zhang et al.

A Distractor-Aware Memory for Visual Object Tracking with SAM2

Alan Lukezic, Jovana Videnović, Matej Kristan

CVPR 2025arXiv:2411.17576

visual object trackingmemory-based trackersvideo object segmentationdistractor-aware memory+3

40

citations

#41

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Yuqian Yuan, Hang Zhang, Wentong Li et al.

Scene Adaptive Sparse Transformer for Event-based Object Detection

Yansong Peng, Li Hebei, Yueyi Zhang et al.

A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames

Pinelopi Papalampidi, Skanda Koppula, Shreya Pathak et al.

Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning

Zhiyuan Yan, Yandan Zhao, Shen Chen et al.

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Bojia Zi, Shihao Zhao, Xianbiao Qi et al.

Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking

Xiantao Hu, Ying Tai, Xu Zhao et al.

SmartRefine: A Scenario-Adaptive Refinement Framework for Efficient Motion Prediction

Yang Zhou, Hao Shao, Letian Wang et al.

Trajectory attention for fine-grained video motion control

Zeqi Xiao, Wenqi Ouyang, Yifan Zhou et al.

SUTrack: Towards Simple and Unified Single Object Tracking

Xin Chen, Ben Kang, Wanting Geng et al.

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

Mark YU, Wenbo Hu, Jinbo Xing et al.

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis

Ke Fan, Junshu Tang, Weijian Cao et al.

ECCV 2024arXiv:2405.15763

text-to-motion synthesismulti-person motion generationconditional motion distributionmotion spatial control+1

35

citations

#52

ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association

Shuxiao Ding, Lukas Schneider, Marius Cordts et al.

REACTO: Reconstructing Articulated Objects from a Single Video

Chaoyue Song, Jiacheng Wei, Chuan-Sheng Foo et al.

Towards Generalizable Multi-Object Tracking

Zheng Qin, Le Wang, Sanping Zhou et al.

VideoGrain: Modulating Space-Time Attention for Multi-Grained Video Editing

Xiangpeng Yang, Linchao Zhu, Hehe Fan et al.

ICLR 2025arXiv:2502.17258

diffusion modelsvideo editingattention mechanismmulti-grained editing+4

31

citations

#56

LEOD: Label-Efficient Object Detection for Event Cameras

Ziyi Wu, Mathias Gehrig, Qing Lyu et al.

PREGO: Online Mistake Detection in PRocedural EGOcentric Videos

Alessandro Flaborea, Guido M. D&amp, #x27 et al.

Seeing Motion at Nighttime with an Event Camera

Haoyue Liu, Shihan Peng, Lin Zhu et al.

I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions

Chengfeng Zhao, Juze Zhang, Jiashen Du et al.

Sparse Global Matching for Video Frame Interpolation with Large Motion

Chunxu Liu, Guozhen Zhang, Rui Zhao et al.

Exploring Enhanced Contextual Information for Video-Level Object Tracking

Ben Kang, Xin Chen, Simiao Lai et al.

Trackastra: Transformer-based cell tracking for live-cell microscopy

Benjamin Gallusser, Weigert Martin

Multi-Object Tracking in the Dark

Xinzhe Wang, Kang Ma, Qiankun Liu et al.

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

Xinhao Liu, Jintong Li, Yicheng Jiang et al.

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking

Wei Cao, Chang Luo, Biao Zhang et al.

Decoupled Spatio-Temporal Consistency Learning for Self-Supervised Tracking

Yaozong Zheng, Bineng Zhong, Qihua Liang et al.

MANUS: Markerless Grasp Capture using Articulated 3D Gaussians

Chandradeep Pokhariya, Ishaan Shah, Angela Xing et al.

MotionFollower: Editing Video Motion via Score-Guided Diffusion

Shuyuan Tu, Qi Dai, Zihao Zhang et al.

Object-Centric Diffusion for Efficient Video Editing

Kumara Kahatapitiya, Adil Karjauv, Davide Abati et al.

ECCV 2024arXiv:2401.05735

diffusion-based video editingobject-centric samplingtoken mergingcomputational efficiency+4

22

citations

#70

Robust Tracking via Mamba-based Context-aware Token Learning

Jinxia Xie, Bineng Zhong, Qihua Liang et al.

HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations

Peng Dai, Yang Zhang, Tao Liu et al.

Self-Supervised Multi-Object Tracking with Path Consistency

Zijia Lu, Bing Shuai, Yanbei Chen et al.

Real-time 3D-aware Portrait Video Relighting

Ziqi Cai, Kaiwen Jiang, Shu-Yu Chen et al.

Guided Slot Attention for Unsupervised Video Object Segmentation

Minhyeok Lee, Suhwan Cho, Dogyoon Lee et al.

MonoHair: High-Fidelity Hair Modeling from a Monocular Video

Keyu Wu, LINGCHEN YANG, Zhiyi Kuang et al.

ElasticTok: Adaptive Tokenization for Image and Video

Wilson Yan, Volodymyr Mnih, Aleksandra Faust et al.

UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement

yaofeng xie, Lingwei Kong, Kai Chen et al.

GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion

Jiapeng Tang, Davide Davoli, Tobias Kirschstein et al.

Learning to Predict Activity Progress by Self-Supervised Video Alignment

Gerard Donahue, Ehsan Elhamifar

Loose Inertial Poser: Motion Capture with IMU-attached Loose-Wear Jacket

Chengxu Zuo, Yiming Wang, Lishuang Zhan et al.

FlowTrack: Revisiting Optical Flow for Long-Range Dense Tracking

Seokju Cho, Gabriel Huang, Seungryong Kim et al.

TeTriRF: Temporal Tri-Plane Radiance Fields for Efficient Free-Viewpoint Video

Minye Wu, Zehao Wang, Georgios Kouros et al.

GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

Tian-Xing Xu, Xiangjun Gao, Wenbo Hu et al.

ICCV 2025arXiv:2504.01016

video depth estimationaffine-invariant predictionspoint map sequences3d/4d reconstruction+4

19

citations

#84

Towards Real-world Event-guided Low-light Video Enhancement and Deblurring

Taewoo Kim, Jaeseok Jeong, Hoonhee Cho et al.

ECCV 2024arXiv:2408.14916

low-light video enhancementmotion deblurringevent camerashybrid camera system+4

19

citations

#85

Improving Video Segmentation via Dynamic Anchor Queries

Yikang Zhou, Tao Zhang, Xiangtai Li et al.

RMem: Restricted Memory Banks Improve Video Object Segmentation

Junbao Zhou, Ziqi Pang, Yu-Xiong Wang

DriveTrack: A Benchmark for Long-Range Point Tracking in Real-World Videos

Arjun Balasingam, Joseph Chandler, Chenning Li et al.

Dense Audio-Visual Event Localization Under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration

Ziheng Zhou, Jinxing Zhou, Wei Qian et al.

Adapting Short-Term Transformers for Action Detection in Untrimmed Videos

Min Yang, gaohuan, Ping Guo et al.

HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos

Jinglei Zhang, Jiankang Deng, Chao Ma et al.

Video Prediction by Modeling Videos as Continuous Multi-Dimensional Processes

Gaurav Shrivastava, Abhinav Shrivastava

Motion Prior Knowledge Learning with Homogeneous Language Descriptions for Moving Infrared Small Target Detection

Shengjia Chen, Luping Ji, Weiwei Duan et al.

Track-On: Transformer-based Online Point Tracking with Memory

Görkay Aydemir, Xiongyi Cai, Weidi Xie et al.

AllTracker: Efficient Dense Point Tracking at High Resolution

Adam Harley, Yang You, Yang Zheng et al.

OmniMotionGPT: Animal Motion Generation with Limited Data

Zhangsihao Yang, Mingyuan Zhou, Mengyi Shan et al.

VMBench: A Benchmark for Perception-Aligned Video Motion Generation

Xinran Ling, Chen Zhu, Meiqi Wu et al.

What How and When Should Object Detectors Update in Continually Changing Test Domains?

Jayeon Yoo, Dongkwan Lee, Inseop Chung et al.

Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking

Jiawen Zhu, Huayi Tang, Xin Chen et al.

Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos

Remy Sabathier, David Novotny, Niloy Mitra

Large-Scale Multi-Hypotheses Cell Tracking Using Ultrametric Contours Maps

Jordao Bragantini, Merlin Lange, Loïc A Royer

ECCV 2024

15

citations

Object Tracking

Top Conferences

Related Topics (Video Analysis)

Top Papers

CoTracker: It is Better to Track Together

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

Video-P2P: Video Editing with Cross-attention Control

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

Putting the Object Back into Video Object Segmentation

ODTrack: Online Dense Temporal Token Learning for Visual Tracking

OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning

FoundationStereo: Zero-Shot Stereo Matching

UCMCTrack: Multi-Object Tracking with Uniform Camera Motion Compensation

HIPTrack: Visual Tracking with Historical Prompts

Single-Model and Any-Modality for Video Object Tracking

Event Stream-based Visual Object Tracking: A High-Resolution Benchmark Dataset and A Novel Baseline

NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis

General Object Foundation Model for Images and Videos at Scale

Temporal Adaptive RGBT Tracking with Modality Prompt

Adaptive Keyframe Sampling for Long Video Understanding

TRAM: Global Trajectory and Motion of 3D Humans from in-the-wild Videos

DiffusionTrack: Diffusion Model for Multi-Object Tracking

Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

Koala: Key Frame-Conditioned Long Video-LLM

DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

Animate-X: Universal Character Image Animation with Enhanced Motion Representation

DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction

Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction

Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models

Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Multiple Object Tracking as ID Prediction

AvatarGPT: All-in-One Framework for Motion Understanding Planning Generation and Beyond

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

Neural Markov Random Field for Stereo Matching

UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction

M-LLM Based Video Frame Selection for Efficient Video Understanding

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry

Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring

A Distractor-Aware Memory for Visual Object Tracking with SAM2

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Scene Adaptive Sparse Transformer for Event-based Object Detection

A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames

Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking

SmartRefine: A Scenario-Adaptive Refinement Framework for Efficient Motion Prediction

Trajectory attention for fine-grained video motion control

SUTrack: Towards Simple and Unified Single Object Tracking

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis

ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association

REACTO: Reconstructing Articulated Objects from a Single Video

Towards Generalizable Multi-Object Tracking

VideoGrain: Modulating Space-Time Attention for Multi-Grained Video Editing

LEOD: Label-Efficient Object Detection for Event Cameras

PREGO: Online Mistake Detection in PRocedural EGOcentric Videos

Seeing Motion at Nighttime with an Event Camera

I'M HOI: Inertia-aware Monocular Capture of 3D Human-Object Interactions

Sparse Global Matching for Video Frame Interpolation with Large Motion

Exploring Enhanced Contextual Information for Video-Level Object Tracking

Trackastra: Transformer-based cell tracking for live-cell microscopy

Multi-Object Tracking in the Dark

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking

Decoupled Spatio-Temporal Consistency Learning for Self-Supervised Tracking

MANUS: Markerless Grasp Capture using Articulated 3D Gaussians

MotionFollower: Editing Video Motion via Score-Guided Diffusion

Object-Centric Diffusion for Efficient Video Editing

Robust Tracking via Mamba-based Context-aware Token Learning

HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations

Self-Supervised Multi-Object Tracking with Path Consistency

Real-time 3D-aware Portrait Video Relighting

Guided Slot Attention for Unsupervised Video Object Segmentation

MonoHair: High-Fidelity Hair Modeling from a Monocular Video

ElasticTok: Adaptive Tokenization for Image and Video