Haochen Wang

7

Papers

97

Total Citations

Papers (7)

JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

NeurIPS 2025arXiv

Holistic Tokenizer for Autoregressive Image Generation

Object-centric Video Question Answering with Visual Grounding and Referring

Alpha Invariance: On Inverse Scaling Between Distance and Volume Density in Neural Radiance Fields