Ming-Hsuan Yang

45

Papers

1,144

Total Citations

Papers (45)

Language Model Beats Diffusion - Tokenizer is key to visual generation

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

VidToMe: Video Token Merging for Zero-Shot Video Editing

Exploiting Diffusion Prior for Generalizable Dense Prediction

Multi-subject Open-set Personalization in Video Generation

Calibrated Multi-Preference Optimization for Aligning Diffusion Models

Efficient Visual State Space Model for Image Deblurring

CSL: Class-Agnostic Structure-Constrained Learning for Segmentation including the Unseen

AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting

OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection

Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation

Cropper: Vision-Language Model for Image Cropping through In-Context Learning

Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance

MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis

Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model

Toward Material-Agnostic System Identification from Videos

CompleteMe: Reference-based Human Image Completion

From Prompt to Progression: Taming Video Diffusion Models for Seamless Attribute Transition

GLaMM: Pixel Grounding Large Multimodal Model

Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring

UniGS: Unified Representation for Image Generation and Segmentation

PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection

VinT-6D: A Large-Scale Object-in-hand Dataset from Vision, Touch and Proprioception

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

VideoPoet: A Large Language Model for Zero-Shot Video Generation

VideoPrism: A Foundational Visual Encoder for Video Understanding

DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior

Move-in-2D: 2D-Conditioned Human Motion Generation

Unified Dense Prediction of Video Diffusion

Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing

FaceLift: Learning Generalizable Single Image 3D Face Reconstruction from Synthetic Heads

Efficient Concertormer for Image Deblurring and Beyond

QK-Edit: Revisiting Attention-based Injection in MM-DiT for Image and Video Editing

Controllable 3D Outdoor Scene Generation via Scene Graphs

Generating Synthetic Data for Unsupervised Federated Learning of Cross-Modal Retrieval

BEV-MAE: Bird’s Eye View Masked Autoencoders for Point Cloud Pre-training in Autonomous Driving Scenarios

DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes

No More Ambiguity in 360° Room Layout via Bi-Layout Estimation

Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence

RTracker: Recoverable Tracking via PN Tree Structured Memory

Text-Driven Image Editing via Learnable Regions

VideoGrounding-DINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding

Weakly Supervised Video Individual Counting