Shengqiong Wu

10

Papers

68

Total Citations

Papers (10)

Towards Semantic Equivalence of Tokenization in Multimodal LLM

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

NeurIPS 2025arXiv

Universal Scene Graph Generation

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

NExT-GPT: Any-to-Any Multimodal LLM

LasUIE: Unifying Information Extraction with Latent Adaptive Structure-aware Generative Language Model

Imagine That! Abstract-to-Intricate Text-to-Image Synthesis with Scene Graph Hallucination Diffusion