Yu-Xiong Wang

57

Papers

1,030

Total Citations

Papers (57)

Learning to Model the Tail

Learning from Small Sample Sets by Combining Unsupervised Meta-Training with CNNs

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

Frozen Transformers in Language Models Are Effective Visual Encoder Layers

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

RMem: Restricted Memory Banks Improve Video Object Segmentation

TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding

ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing

Region-Based Representations Revisited

InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation

Refer to Any Segmentation Mask Group With Vision-Language Prompts

AgMMU: A Comprehensive Agricultural Multimodal Understanding Benchmark

Discovering Objects That Can Move

Embracing Single Stride 3D Object Detector With Sparse Transformer

Long-Tailed Recognition via Weight Balancing

DIVeR: Real-Time and Accurate Neural Radiance Fields With Deterministic Integration for Volume Rendering

Object Discovery From Motion-Guided Tokens

BEV-Guided Multi-Modality Fusion for Driving Perception

Standing Between Past and Future: Spatio-Temporal Modeling for Multi-Camera 3D Multi-Object Tracking

NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds

Contrastive Mean Teacher for Domain Adaptive Object Detectors

Learning Compositional Representations for Few-Shot Recognition

Meta-Learning to Detect Rare Objects

On the Importance of Distractors for Few-Shot Classification

Learning To Hallucinate Examples From Extrinsic and Intrinsic Supervision

Pixel Contrastive-Consistent Semi-Supervised Semantic Segmentation

Contrastive Learning Relies More on Spatial Inductive Bias Than Supervised Learning: An Empirical Study

Video State-Changing Object Segmentation

InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion

MV-Map: Offboard HD-Map Generation with Multi-view Consistency

Improving Equivariance in State-of-the-Art Supervised Depth and Normal Predictors

Towards Streaming Perception

PointTree: Transformation-Robust Point Cloud Encoder with Relaxed K-D Trees

Diverse Human Motion Prediction Guided by Multi-level Spatial-Temporal Anchors

Multi-task View Synthesis with Neural Radiance Fields

InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions

Floating No More: Object-Ground Reconstruction from a Single Image

ReferEverything: Towards Segmenting Everything We Can Speak of in Videos

Situational Awareness Matters in 3D Vision Language Reasoning

Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models

Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching

ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories

Model Recommendation: Generating Object Detectors From Few Samples

Growing a Brain: Fine-Tuning by Increasing Model Capacity

Low-Shot Learning From Imaginary Data

Image Deformation Meta-Networks for One-Shot Learning

Hallucination Improves Few-Shot Object Detection

DAP: Detection-Aware Pre-Training With Weak Supervision

CEIP: Combining Explicit and Implicit Priors for Reinforcement Learning with Demonstrations

Continual Learning with Evolving Class Ontologies

A Simple Solution for Offline Imitation from Observations and Examples with Possibly Incomplete Trajectories

Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models

YouTubePD: A Multimodal Benchmark for Parkinson’s Disease Analysis

HASSOD: Hierarchical Adaptive Self-Supervised Object Detection

ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields