Wei Zhai

12

Papers

58

Total Citations

Papers (12)

Improved Video VAE for Latent Video Diffusion Model

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling

Bidirectional Progressive Transformer for Interaction Intention Anticipation

MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking

EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation

Hypercorrelation Evolution for Video Class-Incremental Learning

Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning

LEMON: Learning 3D Human-Object Interaction Relation from 2D Images

GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding

SIGMAN: Scaling 3D Human Gaussian Generation with Millions of Assets

HERO: Human Reaction Generation from Videos