Kecheng Zheng

12

Papers

324

Total Citations

Papers (12)

Paying More Attention to Images: A Training-Free Method for Alleviating Hallucination in LVLMs

Language-Image Pre-training with Long Captions

Animate-X: Universal Character Image Animation with Enhanced Motion Representation

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

Mimir: Improving Video Diffusion Models for Precise Text Understanding

Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis

MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation

Aligned Better, Listen Better for Audio-Visual Large Language Models

Contextual AD Narration with Interleaved Multimodal Sequence

Learning Visual Generative Priors without Text

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training