Siliang Tang

16

Papers

101

Total Citations

Papers (16)

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Data Shunt: Collaboration of Small and Large Models for Lower Costs and Better Performance

DIEM: Decomposition-Integration Enhancing Multimodal Insights

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

Auto-Encoding Morph-Tokens for Multimodal LLM

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness