Yue Cao

41

Papers

375

Total Citations

Papers (41)

Disentangled Non-local Neural Networks

SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments

CapsFusion: Rethinking Image-Text Data at Scale

Deep Visual-Semantic Quantization for Efficient Image Retrieval

Deep Cauchy Hashing for Hamming Space Retrieval

HashGAN: Deep Learning to Hash With Pair Conditional Wasserstein GAN

Memory Enhanced Global-Local Aggregation for Video Object Detection

Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning

Cross-Iteration Batch Normalization

Learning Physics-Based Full-Body Human Reaching and Grasping from Brief Walking References

SimMIM: A Simple Framework for Masked Image Modeling

Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment

Correlation-Aware Deep Tracking

Video Swin Transformer

On Data Scaling in Masked Image Modeling

All Are Worth Words: A ViT Backbone for Diffusion Models

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Physics-Guided ISO-Dependent Sensor Noise Modeling for Extreme Low-Light Photography

Revealing the Dark Secrets of Masked Image Modeling

Images Speak in Images: A Generalist Painter for In-Context Visual Learning

iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition

Spatial-Temporal Relation Networks for Multi-Object Tracking

Maximum-Margin Hamming Hashing

Group-Free 3D Object Detection via Transformers

Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

SegGPT: Towards Segmenting Everything in Context

Deep Incubation: Training Large Models by Divide-and-Conquering

Improving CLIP Fine-tuning Performance

Unpaired Learning of Deep Image Denoising

Negative Margin Matters: Understanding Margin in Few-shot Classification

A Closer Look at Local Aggregation Operators in Point Cloud Analysis

"A Simple Approach and Benchmark for 21,000-Category Object Detection"

A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-Language Model

Swin Transformer V2: Scaling Up Capacity and Resolution

DepthVanish: Optimizing Adversarial Interval Structures for Stereo-Depth-Invisible Patches

NeurIPS 2025arXiv

Learning to Optimize in Swarms

RepPoints v2: Verification Meets Regression for Object Detection

Parametric Instance Classification for Unsupervised Visual Feature learning

Bootstrap Your Object Detector via Mixed Training

Could Giant Pre-trained Image Models Extract Universal Representations?

Learning Transferable Features with Deep Adaptation Networks