Chao Ma

22

Papers

300

Total Citations

Papers (22)

Single-Model and Any-Modality for Video Object Tracking

VidToMe: Video Token Merging for Zero-Shot Video Editing

Domain-Controlled Prompt Learning

Domain Prompt Learning with Quaternion Networks

HaWoR: World-Space Hand Motion Reconstruction from Egocentric Videos

VEON: Vocabulary-Enhanced Occupancy Prediction

XTrack: Multimodal Training Boosts RGB-X Video Object Trackers

Monocular Identity-Conditioned Facial Reflectance Reconstruction

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

What You Have is What You Track: Adaptive and Robust Multimodal Tracking

AdaptGrad: Adaptive Sampling to Reduce Noise

Cross-Architecture Distillation Made Simple with Redundancy Suppression

Towards Causal Foundation Model: on Duality between Optimal Balancing and Attention

VRM: Knowledge Distillation via Virtual Relation Matching

VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning

PVMamba: Parallelizing Vision Mamba via Dynamic State Aggregation

Robust SAM: On the Adversarial Robustness of Vision Foundation Models

LERE: Learning-Based Low-Rank Matrix Recovery with Rank Estimation

SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction

DiffusionTrack: Point Set Diffusion Model for Visual Object Tracking

A Fixed-Point Approach for Causal Generative Modeling

S^3-Face: SSS-Compliant Facial Reflectance Estimation via Diffusion Priors