Siliang Tang

26

Papers

101

Total Citations

Papers (26)

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

Data Shunt: Collaboration of Small and Large Models for Lower Costs and Better Performance

DIEM: Decomposition-Integration Enhancing Multimodal Insights

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation

Learning To Learn by Jointly Optimizing Neural Architecture and Weights

Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning

Semi-Supervised Active Learning for Semi-Supervised Models: Exploit Adversarial Examples With Graph-Based Virtual Labels

Adaptive Hierarchical Graph Reasoning With Semantic Coherence for Video-and-Language Inference

Learning in Imperfect Environment: Multi-Label Classification with Long-Tailed Distribution and Partial Labels

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World

Auto-Encoding Morph-Tokens for Multimodal LLM

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

Learning to Generate Visual Questions with Noisy Supervision

Fine-Grained Semantically Aligned Vision-Language Pre-Training