Xiu Su

13

Papers

58

Total Citations

Papers (13)

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models

Perturbating, Tuning, and Collaborating: Harnessing Vision Foundation Models for Single Domain Generalization on Medical Imaging

Detecting Any instruction-to-answer interaction relationship:Universal Instruction-to-Answer Navigator for Med-VQA

BCNet: Searching for Network Width With Bilaterally Coupled Network

Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection

ScaleNet: Searching for the Model to Scale

ViTAS: Vision Transformer Architecture Search

Prioritized Architecture Sampling With Monto-Carlo Tree Search

CounterPC: Counterfactual Feature Realignment for Unsupervised Domain Adaptation on Point Clouds

Seeing Beyond Noise: Joint Graph Structure Evaluation and Denoising for Multimodal Recommendation

Searching for Better Spatio-temporal Alignment in Few-Shot Action Recognition

Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models