XU

55

Papers

1,511

Total Citations

Papers (55)

OpenHands: An Open Platform for AI Software Developers as Generalist Agents

BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

MoBA: Mixture of Block Attention for Long-Context LLMs

NeurIPS 2025arXiv

Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

NeurIPS 2025arXiv

On the Role of Attention Heads in Large Language Model Safety

LLaVA-MoD: Making LLaVA Tiny via MoE-Knowledge Distillation

CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning

Zigzag Diffusion Sampling: Diffusion Models Can Self-Improve via Self-Reflection

TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

ConGeo: Robust Cross-view Geo-localization across Ground View Variations

Implicit Concept Removal of Diffusion Models

Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Models

EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head

ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction

LoRA3D: Low-Rank Self-Calibration of 3D Geometric Foundation models

TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

RelitLRM: Generative Relightable Radiance for Large Reconstruction Models

Few-shot NeRF by Adaptive Rendering Loss Regularization

From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots

NeurIPS 2025arXiv

CTSyn: A Foundation Model for Cross Tabular Data Generation

Reinforcement learning with combinatorial actions for coupled restless bandits

MIRA: Medical Time Series Foundation Model for Real-World Health Data

NeurIPS 2025arXiv

Proxy Target: Bridging the Gap Between Discrete Spiking Neural Networks and Continuous Control

NeurIPS 2025arXiv

Optimal Brain Apoptosis

ECD: A Machine Learning Benchmark for Predicting Enhanced-Precision Electronic Charge Density in Crystalline Inorganic Materials

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

NeurIPS 2025arXiv

Efficient Federated Learning against Byzantine Attacks and Data Heterogeneity via Aggregating Normalized Gradients

NeurIPS 2025arXiv

Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search

NeurIPS 2025arXiv

HoPE: Hybrid of Position Embedding for Long Context Vision-Language Models

NeurIPS 2025arXiv

Measuring And Improving Engagement of Text-to-Image Generation Models

Easing Training Process of Rectified Flow Models Via Lengthening Inter-Path Distance

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning

OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

NeurIPS 2025arXiv

4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming

NeurIPS 2025arXiv

Self-Verifying Reflection Helps Transformers with CoT Reasoning

NeurIPS 2025arXiv

Handling Label Noise via Instance-Level Difficulty Modeling and Dynamic Optimization

NeurIPS 2025arXiv

High-order Interactions Modeling for Interpretable Multi-Agent Q-Learning

NeurIPS 2025arXiv

NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding

NeurIPS 2025arXiv

VADTree: Explainable Training-Free Video Anomaly Detection via Hierarchical Granularity-Aware Tree

NeurIPS 2025arXiv

Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments

NeurIPS 2025arXiv

MuSLR: Multimodal Symbolic Logical Reasoning

NeurIPS 2025arXiv

Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models

NeurIPS 2025arXiv

Spiking Neural Networks Need High-Frequency Information

NeurIPS 2025arXiv

Learning with Restricted Boltzmann Machines: Asymptotics of AMP and GD in High Dimensions

NeurIPS 2025arXiv

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

NeurIPS 2025arXiv

OccProphet: Pushing the Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with an Observer-Forecaster-Refiner Framework

Functional Matching of Logic Subgraphs: Beyond Structural Isomorphism

NeurIPS 2025arXiv

HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis

NeurIPS 2025arXiv

EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval

NeurIPS 2025arXiv