Xiaodan Liang

23

Papers

255

Total Citations

Papers (23)

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Making Large Language Models Better Planners with Reasoning-Decision Alignment

WISA: World simulator assistant for physics-aware text-to-video generation

AlignMiF: Geometry-Aligned Multimodal Implicit Field for LiDAR-Camera Joint Synthesis

MLP Can Be A Good Transformer Learner

FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

RoboTron-Drive: All-in-One Large Multimodal Model for Autonomous Driving

PTUS: Photo-Realistic Talking Upper-Body Synthesis via 3D-Aware Motion Decomposition

S2-Track: A Simple yet Strong Approach for End-to-End 3D Multi-Object Tracking

Monocular 3D Hand Mesh Recovery via Dual Noise Estimation

Affordances-Oriented Planning Using Foundation Models for Continuous Vision-Language Navigation

RoboPearls: Editable Video Simulation for Robot Manipulation

MUSE: Mamba Is Efficient Multi-scale Learner for Text-video Retrieval

3D Visibility-Aware Generalizable Neural Radiance Fields for Interacting Hands

Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced Hierarchical Diffusion Model

DreamFit: Garment-Centric Human Generation via a Lightweight Anything-Dressing Encoder

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

A₀ : An Affordance-Aware Hierarchical Model for General Robotic Manipulation

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

BEV-TSR: Text-Scene Retrieval in BEV Space for Autonomous Driving