Zhang

168

Papers

2,855

Total Citations

Papers (168)

OpenHands: An Open Platform for AI Software Developers as Generalist Agents

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

NeurIPS 2025arXiv

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

MoBA: Mixture of Block Attention for Long-Context LLMs

NeurIPS 2025arXiv

SVDQuant: Absorbing Outliers by Low-Rank Component for 4-Bit Diffusion Models

PSALM: Pixelwise Segmentation with Large Multi-modal Model

WebDancer: Towards Autonomous Information Seeking Agency

NeurIPS 2025arXiv

MMTEB: Massive Multilingual Text Embedding Benchmark

MagicPIG: LSH Sampling for Efficient LLM Generation

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

NeurIPS 2025arXiv

Self-Improvement in Language Models: The Sharpening Mechanism

MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

Catastrophic Failure of LLM Unlearning via Quantization

Stream Query Denoising for Vectorized HD-Map Construction

On the Role of Attention Heads in Large Language Model Safety

SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration

LLaVA-MoD: Making LLaVA Tiny via MoE-Knowledge Distillation

Generalizable Human Gaussians for Sparse View Synthesis

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

NeurIPS 2025arXiv

Soft Prompt Generation for Domain Generalization

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

NeurIPS 2025arXiv

GOFA: A Generative One-For-All Model for Joint Graph Language Modeling

EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Videos Generation

NeurIPS 2025arXiv

Energy-Weighted Flow Matching for Offline Reinforcement Learning

MMQA: Evaluating LLMs with Multi-Table Multi-Hop Complex Questions

SWE-bench Goes Live!

NeurIPS 2025arXiv

Audio Large Language Models Can Be Descriptive Speech Quality Evaluators

An Incremental Unified Framework for Small Defect Inspection

GI-GS: Global Illumination Decomposition on Gaussian Splatting for Inverse Rendering

One-Shot Diffusion Mimicker for Handwritten Text Generation

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

SeRL: Self-play Reinforcement Learning for Large Language Models with Limited Data

NeurIPS 2025arXiv

GameArena: Evaluating LLM Reasoning through Live Computer Games

SELF-EVOLVED REWARD LEARNING FOR LLMS

Implicit Concept Removal of Diffusion Models

Raindrop Clarity: A Dual-Focused Dataset for Day and Night Raindrop Removal

MetaOOD: Automatic Selection of OOD Detection Models

Spiking Vision Transformer with Saccadic Attention

RoboScape: Physics-informed Embodied World Model

NeurIPS 2025arXiv

LeVo: High-Quality Song Generation with Multi-Preference Alignment

NeurIPS 2025arXiv

MoVideo: Motion-Aware Video Generation with Diffusion Models

GRIDS: Grouped Multiple-Degradation Restoration with Image Degradation Similarity

Quantized Spike-driven Transformer

NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering

NeurIPS 2025arXiv

ThinkBench: Dynamic Out-of-Distribution Evaluation for Robust LLM Reasoning

NeurIPS 2025arXiv

ATLAS: Autoformalizing Theorems through Lifting, Augmentation, and Synthesis of Data

NeurIPS 2025arXiv

Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis

UFM: A Simple Path towards Unified Dense Correspondence with Flow

NeurIPS 2025arXiv

SINDER: Repairing the Singular Defects of DINOv2

SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction

CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts

GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution

NeurIPS 2025arXiv

LaGeM: A Large Geometry Model for 3D Representation Learning and Diffusion

Monocular Occupancy Prediction for Scalable Indoor Scenes

OneVOS: Unifying Video Object Segmentation with All-in-One Transformer Framework

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

NeurIPS 2025arXiv

MAGR: Manifold-Aligned Graph Regularization for Continual Action Quality Assessment

Few-shot NeRF by Adaptive Rendering Loss Regularization

Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model

Test-time Adaptation for Cross-modal Retrieval with Query Shift

Rethinking Video Deblurring with Wavelet-Aware Dynamic Transformer and Diffusion Model

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

Diff3DS: Generating View-Consistent 3D Sketch via Differentiable Curve Rendering

AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

NeurIPS 2025arXiv

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

NeurIPS 2025arXiv

Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model

Causally Motivated Sycophancy Mitigation for Large Language Models

PoseCrafter: One-Shot Personalized Video Synthesis Following Flexible Pose Control

What Has Been Overlooked in Contrastive Source-Free Domain Adaptation: Leveraging Source-Informed Latent Augmentation within Neighborhood Context

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Learning Cross-hand Policies of High-DOF Reaching and Grasping

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts

Occlusion-Aware Seamless Segmentation

Interleaving One-Class and Weakly-Supervised Models with Adaptive Thresholding for Unsupervised Video Anomaly Detection

LLMCO4MR: LLMs-aided Neural Combinatorial Optimization for Ancient Manuscript Restoration from Fragments with Case Studies on Dunhuang

DECOLLAGE: 3D Detailization by Controllable, Localized, and Learned Geometry Enhancement

MetaMind: Modeling Human Social Thoughts with Metacognitive Multi-Agent Systems

NeurIPS 2025arXiv

Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs

Integrative Decoding: Improving Factuality via Implicit Self-consistency

ELICIT: LLM Augmentation Via External In-context Capability

GlycanML: A Multi-Task and Multi-Structure Benchmark for Glycan Machine Learning

SMI-Editor: Edit-based SMILES Language Model with Fragment-level Supervision

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

NeurIPS 2025arXiv

Hessian-Free Online Certified Unlearning

Correspondence-Free SE(3) Point Cloud Registration in RKHS via Unsupervised Equivariant Learning

Adaptive Multi-modal Fusion of Spatially Variant Kernel Refinement with Diffusion Model for Blind Image Super-Resolution

Learning Graph Invariance by Harnessing Spuriosity

BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks

Noisy Test-Time Adaptation in Vision-Language Models

Fact-R1: Towards Explainable Video Misinformation Detection with Deep Reasoning

NeurIPS 2025arXiv

Dynamic Risk Assessments for Offensive Cybersecurity Agents

NeurIPS 2025arXiv

SymmetricDiffusers: Learning Discrete Diffusion on Finite Symmetric Groups

Test-time Model Adaptation for Image Reconstruction Using Self-supervised Adaptive Layers

Estimation and Inference in Distributional Reinforcement Learning

NeurIPS 2025arXiv

Deep Feature Surgery: Towards Accurate and Efficient Multi-Exit Networks

Attention! Your Vision Language Model Could Be Maliciously Manipulated

NeurIPS 2025arXiv

VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption

NeurIPS 2025arXiv

MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation

NeurIPS 2025arXiv

Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

NeurIPS 2025arXiv

Homomorphism Expressivity of Spectral Invariant Graph Neural Networks

STRAP: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization

NeurIPS 2025arXiv

RLZero: Direct Policy Inference from Language Without In-Domain Supervision

NeurIPS 2025arXiv

CrossAD: Time Series Anomaly Detection with Cross-scale Associations and Cross-window Modeling

NeurIPS 2025arXiv

Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space

NeurIPS 2025arXiv

RESAnything: Attribute Prompting for Arbitrary Referring Segmentation

NeurIPS 2025arXiv

UNIP: Rethinking Pre-trained Attention Patterns for Infrared Semantic Segmentation

A Statistical Approach for Controlled Training Data Detection

One Filters All: A Generalist Filter For State Estimation

NeurIPS 2025arXiv

Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents

NeurIPS 2025arXiv

BenchmarkCards: Standardized Documentation for Large Language Model Benchmarks

NeurIPS 2025arXiv

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

NeurIPS 2025arXiv

Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs

Training-Free Bayesianization for Low-Rank Adapters of Large Language Models

NeurIPS 2025arXiv

OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction

See through the Dark: Learning Illumination-affined Representations for Nighttime Occupancy Prediction

NeurIPS 2025arXiv

Hierachical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning

Test-time Adaptation for Image Compression with Distribution Regularization

A Conditional Independence Test in the Presence of Discretization

Interference Among First-Price Pacing Equilibria: A Bias and Variance Analysis

Alignment of Large Language Models with Constrained Learning

NeurIPS 2025arXiv

S'MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning

NeurIPS 2025arXiv

PolyhedronNet: Representation Learning for Polyhedra with Surface-attributed Graph

MGCFNN: A Neural MultiGrid Solver with Novel Fourier Neural Network for High Wave Number Helmholtz Equations

OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps

NeurIPS 2025arXiv

Release the Powers of Prompt Tuning: Cross-Modality Prompt Transfer

UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression

NeurIPS 2025arXiv

Can LLMs Reason Over Non-Text Modalities in a Training-Free Manner? A Case Study with In-Context Representation Learning

NeurIPS 2025arXiv

Prioritizing Perception-Guided Self-Supervision: A New Paradigm for Causal Modeling in End-to-End Autonomous Driving

NeurIPS 2025arXiv

Personalized Bayesian Federated Learning with Wasserstein Barycenter Aggregation

NeurIPS 2025arXiv

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

NeurIPS 2025arXiv

Adaptive Stochastic Coefficients for Accelerating Diffusion Sampling

NeurIPS 2025arXiv

Dependency-aware Differentiable Neural Architecture Search

Controlled LLM Decoding via Discrete Auto-regressive Biasing

Two‑Stage Learning of Stabilizing Neural Controllers via Zubov Sampling and Iterative Domain Expansion

NeurIPS 2025arXiv

Handling Label Noise via Instance-Level Difficulty Modeling and Dynamic Optimization

NeurIPS 2025arXiv

Exploring Polyglot Harmony: On Multilingual Data Allocation for Large Language Models Pretraining

NeurIPS 2025arXiv

FRBNet: Revisiting Low-Light Vision through Frequency-Domain Radial Basis Network

NeurIPS 2025arXiv

Faithful Group Shapley Value

NeurIPS 2025arXiv

Variational Task Vector Composition

NeurIPS 2025arXiv

Aligning by Misaligning: Boundary-aware Curriculum Learning for Multimodal Alignment

NeurIPS 2025arXiv

Novel Class Discovery for Point Cloud Segmentation via Joint Learning of Causal Representation and Reasoning

NeurIPS 2025arXiv

Stop DDoS Attacking the Research Community with AI-Generated Survey Papers

NeurIPS 2025arXiv

Probing Neural Combinatorial Optimization Models

NeurIPS 2025arXiv

ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation

NeurIPS 2025arXiv

PID-controlled Langevin Dynamics for Faster Sampling on Generative Models

NeurIPS 2025arXiv

Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

NeurIPS 2025arXiv

Bi-Level Decision-Focused Causal Learning for Large-Scale Marketing Optimization: Bridging Observational and Experimental Data

NeurIPS 2025arXiv

Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos

NeurIPS 2025arXiv

Rethinking Hebbian Principle: Low-Dimensional Structural Projection for Unsupervised Learning

NeurIPS 2025arXiv

Improving Model Representation and Reducing KV Cache via Skip Connections with First Value Heads

NeurIPS 2025arXiv

NeuroPath: Neurobiology-Inspired Path Tracking and Reflection for Semantically Coherent Retrieval

NeurIPS 2025arXiv

EGGS: Exchangeable 2D/3D Gaussian Splatting for Geometry-Appearance Balanced Novel View Synthesis

NeurIPS 2025arXiv

FedGPS: Statistical Rectification Against Data Heterogeneity in Federated Learning

NeurIPS 2025arXiv

DepthVanish: Optimizing Adversarial Interval Structures for Stereo-Depth-Invisible Patches

NeurIPS 2025arXiv

OmniFC: Rethinking Federated Clustering via Lossless and Secure Distance Reconstruction

NeurIPS 2025arXiv

Order-Level Attention Similarity Across Language Models: A Latent Commonality

NeurIPS 2025arXiv

Off-policy Reinforcement Learning with Model-based Exploration Augmentation

NeurIPS 2025arXiv

Semantic Temporal Abstraction via Vision-Language Model Guidance for Efficient Reinforcement Learning

mmWalk: Towards Multi-modal Multi-view Walking Assistance

NeurIPS 2025arXiv

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

F-Adapter: Frequency-Adaptive Parameter-Efficient Fine-Tuning in Scientific Machine Learning

NeurIPS 2025arXiv

MuSLR: Multimodal Symbolic Logical Reasoning

NeurIPS 2025arXiv

AANet: Virtual Screening under Structural Uncertainty via Alignment and Aggregation

NeurIPS 2025arXiv