Kaihang Pan

6

Papers

24

Total Citations

Papers (6)

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

Auto-Encoding Morph-Tokens for Multimodal LLM