Juncheng Li

17

Papers

50

Total Citations

Papers (17)

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

NeurIPS 2025arXiv

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

DIEM: Decomposition-Integration Enhancing Multimodal Insights

Learning Coupled Dictionaries from Unpaired Data for Image Super-Resolution

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

Auto-Encoding Morph-Tokens for Multimodal LLM

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining