Zesen Cheng

13

Papers

80

Total Citations

Papers (13)

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation

Tune-Your-Style: Intensity-tunable 3D Style Transfer with Gaussian Splatting

ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation

Out-of-Candidate Rectification for Weakly Supervised Semantic Segmentation

EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding

Multi-granularity Interaction Simulation for Unsupervised Interactive Segmentation

Breaking the Memory Barrier of Contrastive Loss via Tile-Based Strategy

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

Temporal-aware Query Routing for Real-time Video Instance Segmentation

Aligning Instance Brownian Bridge with Texts for Open-Vocabulary Video Instance Segmentation

GraCo: Granularity-Controllable Interactive Segmentation