Shengqiong Wu

8

Papers

68

Total Citations

Papers (8)

Towards Semantic Equivalence of Tokenization in Multimodal LLM

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

NeurIPS 2025arXiv

Universal Scene Graph Generation

NExT-GPT: Any-to-Any Multimodal LLM

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition