Shiji Song

35

Papers

180

Total Citations

Papers (35)

GSVA: Generalized Segmentation via Multimodal Large Language Models

Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

GridMix: Exploring Spatial Modulation for Neural Fields in PDE Modeling

Resolution Adaptive Networks for Efficient Inference

CondenseNet V2: Sparse Feature Reactivation for Deep Networks

3D Object Detection With Pointformer

Vision Transformer With Deformable Attention

On the Integration of Self-Attention and Convolution

Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

Exploring the Equivalence of Siamese Self-Supervised Learning via a Unified Gradient Framework

Zero-Shot Generative Model Adaptation via Image-Specific Prompt Learning

Slide-Transformer: Hierarchical Vision Transformer With Local Self-Attention

Adaptive Focus for Efficient Video Recognition

Towards Learning Spatially Discriminative Feature Representations

FLatten Transformer: Vision Transformer using Focused Linear Attention

Dynamic Perceiver for Efficient Visual Recognition

Adaptive Rotated Convolution for Rotated Object Detection

EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones

AdaFocusV3: On Unified Spatial-Temporal Dynamic Video Recognition

Learning to Weight Samples for Dynamic Early-Exiting Networks

ActiveNeRF: Learning Where to See with Uncertainty Estimation

Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment

EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance

CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

Implicit Semantic Data Augmentation for Deep Networks

Regularized Anderson Acceleration for Off-Policy Deep Reinforcement Learning

Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification

Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition

Efficient Knowledge Distillation from Model Checkpoints

Contrastive Language-Image Pre-Training with Knowledge Graphs

Latency-aware Spatial-wise Dynamic Networks

Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL