Yueting Zhuang

15

Papers

135

Total Citations

Papers (15)

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Let LRMs Break Free from Overthinking via Self-Braking Tuning

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

Auto-Encoding Morph-Tokens for Multimodal LLM

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

Data Shunt: Collaboration of Small and Large Models for Lower Costs and Better Performance