Ming Yang

33

Papers

373

Total Citations

Papers (33)

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery

Animate-X: Universal Character Image Animation with Enhanced Motion Representation

StyleTokenizer: Defining Image Style by a Single Instance for Controlling Diffusion Models

Mimir: Improving Video Diffusion Models for Precise Text Understanding

MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation

Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

EcoMatcher: Efficient Clustering Oriented Matcher for Detector-free Image Matching

HomoMatcher: Achieving Dense Feature Matching with Semi-Dense Efficiency by Homography Estimation

Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment

Stability and Generalization of Stochastic Compositional Gradient Descent Algorithms

DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection

Web-Scale Training for Face Identification

Conditional Generative Adversarial Network for Structured Domain Adaptation

Image Blind Denoising With Generative Adversarial Network Based Noise Modeling

Bi-Directional Cascade Network for Perceptual Edge Detection

Temporal-Context Enhanced Detection of Heavily Occluded Pedestrians

Track To Detect and Segment: An Online Multi-Object Tracker

Back-Tracing Representative Points for Voting-Based 3D Object Detection in Point Clouds

SSAP: Single-Shot Instance Segmentation With Affinity Pyramid

Discriminative Feature Transformation for Occluded Pedestrian Detection

Stacked Homography Transformations for Multi-View Pedestrian Detection

Towards Better Vision-Inspired Vision-Language Models

Reversing Flow for Image Restoration

SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling

DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding

CasP: Improving Semi-Dense Feature Matching Pipeline Leveraging Cascaded Correspondence Priors for Guidance

Engage for All: Making Ordinary Image Descriptions Appealing Again!

Social Debiasing for Fair Multi-modal LLMs

Unified Video Generation via Next-Set Prediction in Continuous Domain

Orthogonal Non-negative Tensor Factorization based Multi-view Clustering

Efficient Potential-based Exploration in Reinforcement Learning using Inverse Dynamic Bisimulation Metric