Zhuoyang Zhang

4

Papers

207

Total Citations

Papers (4)

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer

NVILA: Efficient Frontier Visual Language Models

One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion