Mingyu Ding

29

Papers

259

Total Citations

Papers (29)

Pyramid Multi-view Stereo Net with Self-adaptive View Aggregation

SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

X-Drive: Cross-modality Consistent Multi-Sensor Data Synthesis for Driving Scenarios

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

Face-Focused Cross-Stream Network for Deception Detection in Videos

Learning Depth-Guided Convolutions for Monocular 3D Object Detection

HR-NAS: Searching Efficient High-Resolution Neural Architectures With Lightweight Transformers

L2M-GAN: Learning To Manipulate Latent Space Semantics for Facial Attribute Editing

Mod-Squad: Designing Mixtures of Experts As Modular Multi-Task Learners

Visual Dependency Transformers: Dependency Tree Emerges From Reversed Attention

EC2: Emergent Communication for Embodied Control

CamNet: Coarse-to-Fine Retrieval for Camera Re-Localization

TextPSG: Panoptic Scene Graph Generation from Textual Descriptions

Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking

Segmenting Transparent Objects in the Wild

DaViT: Dual Attention Vision Transformers

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos

Domain-Invariant Projection Learning for Zero-Shot Recognition

Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language

Compressed Video Contrastive Learning

LGDN: Language-Guided Denoising Network for Video-Language Modeling

Towards Free Data Selection with General-Purpose Models

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

Doubly-Robust Self-Training

Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties