Shangzhe Di

5

Papers

96

Total Citations

Papers (5)

Grounded Question-Answering in Long Egocentric Videos

Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos

Enhancing Video-LLM Reasoning via Agent-of-Thoughts Distillation

Learning Streaming Video Representation via Multitask Training

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models

NeurIPS 2025arXiv