Zeyuan Chen

17

Papers

534

Total Citations

Papers (17)

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

HIVE: Harnessing Human Feedback for Instructional Visual Editing

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

Dolfin: Diffusion Layout Transformers without Autoencoder

Bayesian Diffusion Models for 3D Shape Reconstruction

X-Dyna: Expressive Dynamic Human Image Animation

X-Dancer: Expressive Music to Human Dance Video Generation

YOLO-Count: Differentiable Object Counting for Text-to-Image Generation

Structured Policy Optimization: Enhance Large Vision-Language Model via Self-referenced Dialogue

PSD: Principled Synthetic-to-Real Dehazing Guided by Physical Priors

VideoINR: Learning Video Implicit Neural Representation for Continuous Space-Time Super-Resolution

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

Uni-3D: A Universal Model for Panoptic 3D Scene Reconstruction

Burn after Reading: Online Adaptation for Cross-Domain Streaming Data

CADGrasp: Learning Contact and Collision Aware General Dexterous Grasping in Cluttered Scenes

DepR: Depth Guided Single-view Scene Reconstruction with Instance-level Diffusion

CASA: Category-agnostic Skeletal Animal Reconstruction