ICCV 2025 poster

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

206citations

206

Citations

7

Authors

1

Data Points

Authors

Jingyi Zhang Jiaxing Huang Huanjin Yao Shunyu Liu Xikun ZHANG Shijian Lu Dacheng Tao

Citation History

Jan 24, 2026

206