Zesen Cheng

8

Papers

80

Total Citations

Papers (8)

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation

Tune-Your-Style: Intensity-tunable 3D Style Transfer with Gaussian Splatting

GraCo: Granularity-Controllable Interactive Segmentation

Temporal-aware Query Routing for Real-time Video Instance Segmentation

Aligning Instance Brownian Bridge with Texts for Open-Vocabulary Video Instance Segmentation

Breaking the Memory Barrier of Contrastive Loss via Tile-Based Strategy