Yu-Xiong Wang

49

Papers

250

Total Citations

Papers (49)

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

Frozen Transformers in Language Models Are Effective Visual Encoder Layers

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

RMem: Restricted Memory Banks Improve Video Object Segmentation

TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing

Region-Based Representations Revisited

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

Refer to Any Segmentation Mask Group With Vision-Language Prompts

AgMMU: A Comprehensive Agricultural Multimodal Understanding Benchmark

NeurIPS 2025arXiv

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions

Floating No More: Object-Ground Reconstruction from a Single Image

ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

Situational Awareness Matters in 3D Vision Language Reasoning

Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models

Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching

ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories

Hallucination Improves Few-Shot Object Detection

DAP: Detection-Aware Pre-Training With Weak Supervision

Discovering Objects That Can Move

Embracing Single Stride 3D Object Detector With Sparse Transformer

Long-Tailed Recognition via Weight Balancing

DIVeR: Real-Time and Accurate Neural Radiance Fields With Deterministic Integration for Volume Rendering

Object Discovery From Motion-Guided Tokens

BEV-Guided Multi-Modality Fusion for Driving Perception

Standing Between Past and Future: Spatio-Temporal Modeling for Multi-Camera 3D Multi-Object Tracking

NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

Contrastive Mean Teacher for Domain Adaptive Object Detectors

On the Importance of Distractors for Few-Shot Classification

Learning To Hallucinate Examples From Extrinsic and Intrinsic Supervision

Pixel Contrastive-Consistent Semi-Supervised Semantic Segmentation

Contrastive Learning Relies More on Spatial Inductive Bias Than Supervised Learning: An Empirical Study

Video State-Changing Object Segmentation

InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion

Multi-task View Synthesis with Neural Radiance Fields

MV-Map: Offboard HD-Map Generation with Multi-view Consistency

Improving Equivariance in State-of-the-Art Supervised Depth and Normal Predictors

Towards Streaming Perception

PointTree: Transformation-Robust Point Cloud Encoder with Relaxed K-D Trees

Diverse Human Motion Prediction Guided by Multi-level Spatial-Temporal Anchors

CEIP: Combining Explicit and Implicit Priors for Reinforcement Learning with Demonstrations

NeurIPS 2022arXiv

Continual Learning with Evolving Class Ontologies

NeurIPS 2022arXiv

A Simple Solution for Offline Imitation from Observations and Examples with Possibly Incomplete Trajectories

NeurIPS 2023arXiv

Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models

NeurIPS 2023arXiv

YouTubePD: A Multimodal Benchmark for Parkinson’s Disease Analysis

HASSOD: Hierarchical Adaptive Self-Supervised Object Detection

NeurIPS 2023arXiv

ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields

NeurIPS 2023arXiv