Mingming Gong

14

Papers

89

Total Citations

Papers (14)

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

LaVin-DiT: Large Vision Diffusion Transformer

Grab What You Need: Rethinking Complex Table Structure Recognition with Flexible Components Deliberation

Interventional Fairness on Partially Known Causal Graphs: A Constrained Optimization Approach

UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation

Projection Pursuit Density Ratio Estimation

DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech

Detecting Generated Images by Fitting Natural Image Distributions

NeurIPS 2025arXiv

On the Recoverability of Causal Relations from Temporally Aggregated I.I.D. Data

Semantic-guided Cross-Modal Prompt Learning for Skeleton-based Zero-shot Action Recognition

A Reinforcement-Learning-Based Multiple-Column Selection Strategy for Column Generation

Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition

Optimal Kernel Choice for Score Function-based Causal Discovery

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training