Yu-Xiong Wang

19

Papers

250

Total Citations

Papers (19)

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

Frozen Transformers in Language Models Are Effective Visual Encoder Layers

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

RMem: Restricted Memory Banks Improve Video Object Segmentation

TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing

Region-Based Representations Revisited

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

Refer to Any Segmentation Mask Group With Vision-Language Prompts

AgMMU: A Comprehensive Agricultural Multimodal Understanding Benchmark

Situational Awareness Matters in 3D Vision Language Reasoning

Floating No More: Object-Ground Reconstruction from a Single Image

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions

Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models

Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching

ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories

ReferEverything: Towards Segmenting Everything We Can Speak of in Videos