Shangzhe Di

5

Papers

105

Total Citations

Papers (5)

Grounded Question-Answering in Long Egocentric Videos

Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos

Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models

NeurIPS 2025arXiv

Learning Streaming Video Representation via Multitask Training