Jingyi Zhang

4

Papers

231

Total Citations

Papers (4)

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI

Neighborhood-Enhanced 3D Human Pose Estimation with Monocular LiDAR in Long-Range Outdoor Scenes