Yongming Rao

7

Papers

496

Total Citations

Papers (7)

Generative Multimodal Models are In-Context Learners

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

X-3D: Explicit 3D Structure Modeling for Point Cloud Recognition