Yi Zhu

29

Papers

66

Total Citations

Papers (29)

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

NeurIPS 2025arXiv

Weakly Supervised Instance Segmentation Using Class Peak Response

Towards Universal Representation for Unseen Action Recognition

Learning Instance Activation Maps for Weakly Supervised Instance Segmentation

Improving Semantic Segmentation via Video Propagation and Label Relaxation

Vision-Language Navigation With Self-Supervised Auxiliary Reasoning Tasks

Vision-Dialog Navigation by Exploring Cross-Modal Memory

Domain Consensus Clustering for Universal Domain Adaptation

SOON: Scenario Oriented Object Navigation With Graph-Based Exploration

Learning Canonical F-Correlation Projection for Compact Multiview Representation

ADAPT: Vision-Language Navigation With Modality-Aligned Action Prompts

Soft Proposal Networks for Weakly Supervised Object Localization

CrossCLR: Cross-Modal Contrastive Learning for Multi-Modal Video Representations

VidTr: Video Transformer Without Convolutions

Self-Motivated Communication Agent for Real-World Vision-Dialog Navigation

CrossNorm and SelfNorm for Generalization Under Distribution Shifts

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

Motion-Guided Masking for Spatiotemporal Representation Learning

Towards Geospatial Foundation Models via Continual Pretraining

Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior

Selective Sparse Sampling for Fine-Grained Image Recognition

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

Blending Anti-Aliasing into Vision Transformer

Progressive Coordinate Transforms for Monocular 3D Object Detection

CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image Segmentation

Earthformer: Exploring Space-Time Transformers for Earth System Forecasting

Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition

PreDiff: Precipitation Nowcasting with Latent Diffusion Models