Weidi Xie

18

Papers

193

Total Citations

Papers (18)

Grounded Question-Answering in Long Egocentric Videos

AutoAD III: The Prequel – Back to the Pixels

Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos

Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation

Track-On: Transformer-based Online Point Tracking with Memory

Towards Universal Soccer Video Understanding

Multi-Sentence Grounding for Long-term Instructional Video

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning

Made to Order: Discovering monotonic temporal changes via self-supervised video ordering

Learning Streaming Video Representation via Multitask Training

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation

LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant

Retrieval-Augmented Egocentric Video Captioning

Amodal Ground Truth and Completion in the Wild

Object-centric Video Question Answering with Visual Grounding and Referring

Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset

MRGen: Segmentation Data Engine For Underrepresented MRI Modalities