Yulin Wang

24

Papers

280

Total Citations

Papers (24)

MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition

Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation

GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution

NeurIPS 2025arXiv

RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing

NeurIPS 2025arXiv

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment

EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance

CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

HccePose (BF): Predicting Front & Back Surfaces to Construct Ultra-Dense 2D-3D Correspondences for Pose Estimation

LazyMAR: Accelerating Masked Autoregressive Models via Feature Caching

CondenseNet V2: Sparse Feature Reactivation for Deep Networks

Transferable Semantic Augmentation for Domain Adaptation

AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video Recognition

Adaptive Focus for Efficient Video Recognition

Dynamic Perceiver for Efficient Visual Recognition

Adaptive Rotated Convolution for Rotated Object Detection

EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones

Deep Incubation: Training Large Models by Divide-and-Conquering

Borrowing Knowledge From Pre-trained Language Model: A New Data-efficient Visual Learning Paradigm

AdaFocusV3: On Unified Spatial-Temporal Dynamic Video Recognition

Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification

NeurIPS 2020arXiv

Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition

NeurIPS 2021arXiv