Ran Xu

10

Papers

462

Total Citations

Papers (10)

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

HIVE: Harnessing Human Feedback for Instructional Visual Editing

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

Trust but Verify: Programmatic VLM Evaluation in the Wild

Structured Policy Optimization: Enhance Large Vision-Language Model via Self-referenced Dialogue

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting

Text2Data: Low-Resource Data Generation with Textual Control

LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer

Position: TrustLLM: Trustworthiness in Large Language Models

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation