Zhongang Qi

20

Papers

1,540

Total Citations

Papers (20)

T2I-Adapter: Learning Adapters to Dig Out More Controllable Ability for Text-to-Image Diffusion

Taming Rectified Flow for Inversion and Editing

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

NeurIPS 2025arXiv

Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion

DOGR: Towards Versatile Visual Document Grounding and Referring

Mamba-3VL: Taming State Space Model for 3D Vision Language Learning

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

VisionMath: Vision-Form Mathematical Problem-Solving

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

Less is More: Empowering GUI Agent with Context-Aware Simplification

PointConv: Deep Convolutional Networks on 3D Point Clouds

Open-Book Video Captioning With Retrieve-Copy-Generate Network

BTS: A Bi-Lingual Benchmark for Text Segmentation in the Wild

LayoutDiffusion: Controllable Diffusion Model for Layout-to-Image Generation

ViLEM: Visual-Language Error Modeling for Image-Text Retrieval

Order-Prompted Tag Sequence Generation for Video Tagging

MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing

Finding Discriminative Filters for Specific Degradations in Blind Super-Resolution

Exploiting Contextual Objects and Relations for 3D Visual Grounding