Dongdong Chen

13

Papers

94

Total Citations

Papers (13)

OmniViD: A Generative Framework for Universal Video Understanding

Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

FreeFlux: Understanding and Exploiting Layer-Specific Roles in RoPE-Based MMDiT for Versatile Image Editing

SmartEraser: Remove Anything from Images using Masked-Region Guidance

Olympus: A Universal Task Router for Computer Vision Tasks

UNICL-SAM: Uncertainty-Driven In-Context Segmentation with Part Prototype Discovery

I2V3D: Controllable Image-to-video Generation with 3D Guidance

Exploring Invariance in Images through One-way Wave Equations

Equivariant Multi-Modality Image Fusion

Towards More Unified In-context Visual Understanding

Show and Segment: Universal Medical Image Segmentation via In-Context Learning

Image Fusion via Vision-Language Model