Jingyi Zhang

16

Papers

231

Total Citations

Papers (16)

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation

MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI

Neighborhood-Enhanced 3D Human Pose Estimation with Monocular LiDAR in Long-Range Outdoor Scenes

LiDARCap: Long-Range Marker-Less 3D Human Motion Capture With LiDAR Point Clouds

Indescribable Multi-Modal Spatial Evaluator

Towards Efficient Use of Multi-Scale Features in Transformer-Based Object Detectors

UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer via Hierarchical Mask Calibration

Black-Box Unsupervised Domain Adaptation with Bi-Directional Atkinson-Shiffrin Memory

Learning Series-Parallel Lookup Tables for Efficient Image Super-Resolution

DA-DETR: Domain Adaptive Detection Transformer With Information Fusion

Building Detail-Sensitive Semantic Segmentation Networks With Polynomial Pooling

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation

Spectral Unsupervised Domain Adaptation for Visual Recognition

Large-scale optimal transport map estimation using projection pursuit

Sufficient dimension reduction for classification using principal optimal transport direction