Ze Liu

45

Papers

1,367

Total Citations

Papers (45)

SpinQuant: LLM Quantization with Learned Rotations

Advancing LLM Reasoning Generalists with Preference Trees

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

MMTEB: Massive Multilingual Text Embedding Benchmark

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

NeurIPS 2025arXiv

TC4D: Trajectory-Conditioned Text-to-4D Generation

Large Motion Model for Unified Multi-Modal Motion Generation

Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

Video World Models with Long-term Spatial Memory

NeurIPS 2025arXiv

On the expressiveness and spectral bias of KANs

Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Scaling RL to Long Videos

NeurIPS 2025arXiv

Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

NeurIPS 2025arXiv

FairMT-Bench: Benchmarking Fairness for Multi-turn Dialogue in Conversational LLMs

Fast-in-Slow: A Dual-System VLA Model Unifying Fast Manipulation within Slow Reasoning

Multi-Agent Collaboration via Evolving Orchestration

NeurIPS 2025arXiv

Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models

Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Image-level Memorization Detection via Inversion-based Inference Perturbation

ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

NeurIPS 2025arXiv

Node-Time Conditional Prompt Learning in Dynamic Graphs

VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models

NeurIPS 2025arXiv

Bridging the Gap between Database Search and \emph{De Novo} Peptide Sequencing with SearchNovo

Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections

NeurIPS 2025arXiv

SMI-Editor: Edit-based SMILES Language Model with Fragment-level Supervision

ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation

NeurIPS 2025arXiv

Towards A Generalist Code Embedding Model Based On Massive Data Synthesis

NeurIPS 2025arXiv

The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training

NeurIPS 2025arXiv

Sparse Refinement for Efficient High-Resolution Semantic Segmentation

ArchCAD-400K: A Large-Scale CAD drawings Dataset and New Baseline for Panoptic Symbol Spotting

NeurIPS 2025arXiv

VideoLucy: Deep Memory Backtracking for Long Video Understanding

NeurIPS 2025arXiv

SEBRA : Debiasing through Self-Guided Bias Ranking

Hallucination at a Glance: Controlled Visual Edits and Fine-Grained Multimodal Learning

NeurIPS 2025arXiv

PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs

NeurIPS 2025arXiv

Nabla-R2D3: Effective and Efficient 3D Diffusion Alignment with 2D Rewards

NeurIPS 2025arXiv

MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval

NeurIPS 2025arXiv

A Secure Image Watermarking Framework with Statistical Guarantees via Adversarial Attacks on Secret Key Networks

Deep Nets with Subsampling Layers Unwittingly Discard Useful Activations at Test-Time

HetSyn: Versatile Timescale Integration in Spiking Neural Networks via Heterogeneous Synapses

NeurIPS 2025arXiv

Luminance-Aware Statistical Quantization: Unsupervised Hierarchical Learning for Illumination Enhancement

NeurIPS 2025arXiv

DetectiumFire: A Comprehensive Multi-modal Dataset Bridging Vision and Language for Fire Understanding

NeurIPS 2025arXiv