Juncheng Li

28

Papers

42

Total Citations

Papers (28)

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

DIEM: Decomposition-Integration Enhancing Multimodal Insights

Learning Coupled Dictionaries from Unpaired Data for Image Super-Resolution

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

Adaptive Hierarchical Graph Reasoning With Semantic Coherence for Video-and-Language Inference

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

Auto-Encoding Morph-Tokens for Multimodal LLM

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning

Are Binary Annotations Sufficient? Video Moment Retrieval via Hierarchical Uncertainty-Based Active Learning

Structure-Preserving Deraining With Residue Channel Prior Guidance

Adversarial camera stickers: A physical camera-based attack on deep learning systems

Adversarial Music: Real world Audio Adversary against Wake-word Detection System

Fine-Grained Semantically Aligned Vision-Language Pre-Training

Masked Autoencoders that Listen