Object Tracking

CVPR 2024arXiv:2312.08344

#2

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

Bowen Wen, Wei Yang, Jan Kautz et al.

412

ICCV 2025arXiv:2410.11831

#3

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

Nikita Karaev, Iurii Makarov, Jianyuan Wang et al.

211

CVPR 2024arXiv:2310.12982

#4

Putting the Object Back into Video Object Segmentation

Ho Kei Cheng, Seoung Wug Oh, Brian Price et al.

182

AAAI 2024arXiv:2401.01686

#5

ODTrack: Online Dense Temporal Token Learning for Visual Tracking

Yaozong Zheng, Bineng Zhong, Qihua Liang et al.

visual trackingonline trackingtemporal token learningtoken propagation+3

173

CVPR 2024arXiv:2403.09634

#6

OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning

Lingyi Hong, Shilin Yan, Renrui Zhang et al.

118

AAAI 2024arXiv:2312.08952

#7

UCMCTrack: Multi-Object Tracking with Uniform Camera Motion Compensation

Kefu Yi, Kai Luo, Xiaolei Luo et al.

multi-object trackingcamera motion compensationkalman filterhomography projection+4

97

CVPR 2024arXiv:2311.02072

#8

HIPTrack: Visual Tracking with Historical Prompts

Wenrui Cai, Qingjie Liu, Yunhong Wang

96

CVPR 2024arXiv:2311.15851

#9

Single-Model and Any-Modality for Video Object Tracking

Zongwei Wu, Jilai Zheng, Xiangxuan Ren et al.

96

CVPR 2024arXiv:2309.14611

#10

Event Stream-based Visual Object Tracking: A High-Resolution Benchmark Dataset and A Novel Baseline

Xiao Wang, Shiao Wang, Chuanming Tang et al.

82

AAAI 2024arXiv:2401.01244

#11

Temporal Adaptive RGBT Tracking with Modality Prompt

Hongyu Wang, Xiaotao Liu, Yifan Li et al.

rgbt trackingmodality promptspatio-temporal interactiononline template update+4

71

AAAI 2024arXiv:2308.09905

#12

DiffusionTrack: Diffusion Model for Multi-Object Tracking

Run Luo, Zikai Song, Lintao Ma et al.

multi-object trackingdenoising diffusion processtracking-by-detectionjoint detection and tracking+3

65

CVPR 2024arXiv:2403.02075

#13

DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction

Weiyi Lv, Yuhang Huang, NING Zhang et al.

59

CVPR 2024arXiv:2311.17241

#14

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Songhao Han, Wei Huang, Hairong Shi et al.

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

Shuming Liu, Chenlin Zhang, Chen Zhao et al.

51

CVPR 2024arXiv:2401.01887

#16

M-LLM Based Video Frame Selection for Efficient Video Understanding

Kai Hu, Feng Gao, Xiaohan Nie et al.

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry

Weirong Chen, Le Chen, Rui Wang et al.

44

CVPR 2025arXiv:2501.00599

#18

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Yuqian Yuan, Hang Zhang, Wentong Li et al.

40

CVPR 2024arXiv:2404.01882

#19

Scene Adaptive Sparse Transformer for Event-based Object Detection

Yansong Peng, Li Hebei, Yueyi Zhang et al.

40

AAAI 2025arXiv:2412.15691

#20

Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking

Xiantao Hu, Ying Tai, Xu Zhao et al.

38

AAAI 2025arXiv:2412.19138

#21

SUTrack: Towards Simple and Unified Single Object Tracking

Xin Chen, Ben Kang, Wanting Geng et al.

37

ICCV 2025arXiv:2503.05638

#22

TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

Mark YU, Wenbo Hu, Jinbo Xing et al.

35

CVPR 2024arXiv:2405.08909

#23

ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association

Shuxiao Ding, Lukas Schneider, Marius Cordts et al.

34

CVPR 2024arXiv:2406.00429

#24

Towards Generalizable Multi-Object Tracking

Zheng Qin, Le Wang, Sanping Zhou et al.

32

CVPR 2024arXiv:2404.11151

#25

REACTO: Reconstructing Articulated Objects from a Single Video

Chaoyue Song, Jiacheng Wei, Chuan-Sheng Foo et al.

32

CVPR 2024arXiv:2311.17286

#26

LEOD: Label-Efficient Object Detection for Event Cameras

Ziyi Wu, Mathias Gehrig, Qing Lyu et al.

30

AAAI 2025arXiv:2412.11023

#27

Exploring Enhanced Contextual Information for Video-Level Object Tracking

Ben Kang, Xin Chen, Simiao Lai et al.

27

CVPR 2024arXiv:2404.06913

#28

Sparse Global Matching for Video Frame Interpolation with Large Motion

Chunxu Liu, Guozhen Zhang, Rui Zhao et al.

27

CVPR 2024arXiv:2405.06600

#29

Trackastra: Transformer-based cell tracking for live-cell microscopy

Benjamin Gallusser, Weigert Martin

Multi-Object Tracking in the Dark

Xinzhe Wang, Kang Ma, Qiankun Liu et al.

25

CVPR 2024arXiv:2404.05136

#31

MotionFollower: Editing Video Motion via Score-Guided Diffusion

Shuyuan Tu, Qi Dai, Zihao Zhang et al.

Self-Supervised Multi-Object Tracking with Path Consistency

Zijia Lu, Bing Shuai, Yanbei Chen et al.

21

CVPR 2024arXiv:2403.03561

#33

HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations

Peng Dai, Yang Zhang, Tao Liu et al.

21

CVPR 2024arXiv:2303.08314

#34

Guided Slot Attention for Unsupervised Video Object Segmentation

Minhyeok Lee, Suhwan Cho, Dogyoon Lee et al.

21

CVPR 2024arXiv:2312.09523

#35

Learning to Predict Activity Progress by Self-Supervised Video Alignment

Gerard Donahue, Ehsan Elhamifar

FlowTrack: Revisiting Optical Flow for Long-Range Dense Tracking

Seokju Cho, Gabriel Huang, Seungryong Kim et al.

DriveTrack: A Benchmark for Long-Range Point Tracking in Real-World Videos

Arjun Balasingam, Joseph Chandler, Chenning Li et al.

18

CVPR 2024arXiv:2312.01897

#38

Adapting Short-Term Transformers for Action Detection in Untrimmed Videos

Min Yang, gaohuan, Ping Guo et al.

17

ICLR 2025arXiv:2501.18487

#39

Video Prediction by Modeling Videos as Continuous Multi-Dimensional Processes

Gaurav Shrivastava, Abhinav Shrivastava

Track-On: Transformer-based Online Point Tracking with Memory

Görkay Aydemir, Xiongyi Cai, Weidi Xie et al.

point trackinglong-term trackingonline trackingtransformer-based model+3

16

AAAI 2025arXiv:2503.00516

#41

AllTracker: Efficient Dense Point Tracking at High Resolution

Adam Harley, Yang You, Yang Zheng et al.

Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking

Jiawen Zhu, Huayi Tang, Xin Chen et al.

15

CVPR 2024arXiv:2404.12887

#43

3D Multi-frame Fusion for Video Stabilization

Zhan Peng, Xinyi Ye, Weiyue Zhao et al.

13

AAAI 2024arXiv:2312.08951

#44

Multi-Scene Generalized Trajectory Global Graph Solver with Composite Nodes for Multiple Object Tracking

Yan Gao, Haojun Xu, Jie Li et al.

multiple object trackinggraph-based trackingtrajectory associationgraph neural network+3

13

AAAI 2024arXiv:2312.06117

#45

M3SOT: Multi-Frame, Multi-Field, Multi-Space 3D Single Object Tracking

Jiaming Liu, Yue Wu, Maoguo Gong et al.

3d single object trackingpoint cloud processingtransformer-based networkmulti-frame tracking+3

12

CVPR 2025arXiv:2501.03059

#46

MDP3: A Training-free Approach for List-wise Frame Selection in Video-LLMs

Hui Sun, Shiyin Lu, Huanyu Wang et al.

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Guy Yariv, Yuval Kirstain, Amit Zohar et al.

12

CVPR 2024arXiv:2312.04117

#48

Semantic and Sequential Alignment for Referring Video Object Segmentation

Feiyu Pan, Hao Fang, Fangkai Li et al.

Instance Tracking in 3D Scenes from Egocentric Videos

Yunhan Zhao, Haoyu Ma, Shu Kong et al.

11

ICCV 2025arXiv:2405.17773

#50

XTrack: Multimodal Training Boosts RGB-X Video Object Trackers

Yuedong Tan, Zongwei Wu, Yuqian Fu et al.

10

CVPR 2025arXiv:2503.08037

#51

ObjectMover: Generative Object Movement with Video Prior

Xin Yu, Tianyu Wang, Soo Ye Kim et al.

object movementvideo generation modellighting harmonizationimage editing+3

10

NeurIPS 2025arXiv:2506.17220

#52

Emergent Temporal Correspondences from Video Diffusion Transformers

Jisu Nam, Soowon Son, Dahyun Chung et al.

10

ECCV 2024arXiv:2409.11235

#53

MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking

Haolin Qin, Tingfa Xu, Tianhao Li et al.

Focusing on Tracks for Online Multi-Object Tracking

Kyujin Shim, Kangwook Ko, YuJin Yang et al.

SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking

Siyuan Li, Lei Ke, Yung-Hsu Yang et al.

8

CVPR 2025arXiv:2505.22859

#56

Exploring Historical Information for RGBE Visual Tracking with Mamba

Chuanyu Sun, Jiqing Zhang, Yang Wang et al.

4DTAM: Non-Rigid Tracking and Mapping via Dynamic Surface Gaussians

Hidenobu Matsuki, Gwangbin Bae, Andrew J. Davison

6

ICLR 2025arXiv:2503.10616

#58

OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

Jinyang Li, En Yu, Sijia Chen et al.

6

AAAI 2025arXiv:2412.17210

#59

6D Object Pose Tracking in Internet Videos for Robotic Manipulation

Georgy Ponimatkin, Martin Cífka, Tomas Soucek et al.

Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection

Hongsong Wang, Andi Xu, Pinle Ding et al.

6

CVPR 2024arXiv:2403.20031

#61

Recognizing Ultra-High-Speed Moving Objects with Bio-Inspired Spike Camera

Junwei Zhao, Shiliang Zhang, Zhaofei Yu et al.

A Unified Framework for Human-centric Point Cloud Video Understanding

Yiteng Xu, Kecheng Ye, xiao han et al.

5

ICCV 2025arXiv:2508.00518

#63

Omnidirectional Multi-Object Tracking

Kai Luo, Hao Shi, Sheng Wu et al.

Fine-grained Spatiotemporal Grounding on Egocentric Videos

Shuo LIANG, Yiwu Zhong, Zi-Yuan Hu et al.

spatiotemporal video groundingegocentric video understandingpixel-level benchmarkautomatic annotation pipeline+4

5

CVPR 2025arXiv:2505.03116

#65

Projecting Trackable Thermal Patterns for Dynamic Computer Vision

Mark Sheinin, Aswin C. Sankaranarayanan, Srinivasa G. Narasimhan

Precise Event Spotting in Sports Videos: Solving Long-Range Dependency and Class Imbalance

Sanchayan Santra, Vishal Chudasama, Pankaj Wasnik et al.

Flow4Agent: Long-form Video Understanding via Motion Prior from Optical Flow

Ruyang Liu, Shangkun Sun, Haoran Tang et al.

TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion

Haoyue Liu, Jinghan Xu, Yi Chang et al.

video frame interpolationevent camerasnon-linear motioncontinuous point tracking+4

vehicle trackingaerial imagerymulti-object trackingmoving camera scenarios+4

#69

Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Object Appearance Graphs

Mattia Segu, Luigi Piccinelli, Siyuan Li et al.

PoseTraj: Pose-Aware Trajectory Control in Video Diffusion

longbin ji, Lei Zhong, Pengfei Wei et al.

VETRA: A Dataset for Vehicle Tracking in Aerial Imagery - New Challenges for Multi-Object Tracking

Jens Hellekes, Manuel Mühlhaus, Reza Bahmanyar et al.

ECCV 2024

ICCV 2025arXiv:2507.04984

#72

TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation

Zonglin Lyu, Chen Chen

video frame interpolationdiffusion modelslatent brownian bridgetemporal-aware autoencoder+3

ICCV 2025arXiv:2507.05899

#73

What You Have is What You Track: Adaptive and Robust Multimodal Tracking

Yuedong Tan, Jiawei Shao, Eduard Zamfir et al.

CVPR 2025arXiv:2503.19904

#74

Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

Zihang Lai, Andrea Vedaldi

CVPR 2025arXiv:2503.07597

#75

Video Individual Counting for Moving Drones

Yaowu Fan, Jia Wan, Tao Han et al.

HumanMM: Global Human Motion Recovery from Multi-shot Videos

Yuhong Zhang, Guanlin Wu, Ling-Hao Chen et al.

ICCV 2025arXiv:2508.09811

#77

Event2Tracking: Reconstructing Multi-Agent Soccer Trajectories Using Long-Term Multimodal Context

Harry Hughes, Michael Horton, Xinyu Wei et al.

Cross-Modal Stealth: A Coarse-to-Fine Attack Framework for RGB-T Tracker

Xinyu Xiang, Qinglong Yan, Hao Zhang et al.

Exploiting Continuous Motion Clues for Vision-Based Occupancy Prediction

Haoran Xu, Peixi Peng, Xinyi Zhang et al.

TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos

Jinxi Li, Ziyang Song, Bo Yang

CVPR 2025arXiv:2412.11365

#81

Hand-held Object Reconstruction from RGB Video with Dynamic Interaction

Shijian Jiang, Qi Ye, Rengan Xie et al.

BiM-VFI: Bidirectional Motion Field-Guided Frame Interpolation for Video with Non-uniform Motions

Wonyong Seo, Jihyong Oh, Munchurl Kim

ICLR 2025arXiv:2504.05075

#83

Track Any Anomalous Object:A Granular Video Anomaly Detection Pipeline

Yuzhi Huang, Chenxin Li, Haitao Zhang et al.

Everything is a Video: Unifying Modalities through Next-Frame Prediction

G Thomas Hudson, Dean Slack, Thomas Winterbottom et al.

PvNeXt: Rethinking Network Design and Temporal Motion for Point Cloud Video Recognition

Jie Wang, Tingfa Xu, Lihe Ding et al.

ICML 2025arXiv:2406.02147

#86

GLOMA: Global Video Text Spotting with Morphological Association

Han Wang, Yanjie Wang, Yang Li et al.

S2-Track: A Simple yet Strong Approach for End-to-End 3D Multi-Object Tracking

Tao Tang, Lijun Zhou, Pengkun Hao et al.

ICML 2025arXiv:2505.16321

#88

Efficient Motion Prompt Learning for Robust Visual Tracking

Jie Zhao, Xin Chen, Yongsheng Yuan et al.

NeurIPS 2025arXiv:2512.08358

#89

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

Jiahao Lu, Weitao Xiong, Jiacheng Deng et al.

monocular 3d trackingdense 2d trackingworld-centric coordinate systemcamera pose estimation+3

CVPR 2025arXiv:2503.23094

#90

Is This Tracker On? A Benchmark Protocol for Dynamic Tracking

Ilona Demler, Saumya Chauhan, Georgia Gkioxari

Motion-Zero: A Zero-Shot Trajectory Control Framework of Moving Object for Diffusion-Based Video Generation

Changgu Chen, Junwei Shu, Gaoqi He et al.

FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video

Andrea Boscolo Camiletto, Jian Wang, Eduardo Alvarado et al.

ICCV 2025arXiv:2508.21060

#93

Multi-View 3D Point Tracking

Frano Rajič, Haofei Xu, Marko Mihajlovic et al.