Rui Shao

12

Papers

47

Total Citations

Papers (12)

LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant

FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers

Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation

LION: Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

RoboMP$^2$: A Robotic Multimodal Perception-Planning Framework with Multimodal Large Language Models

Multi-Adversarial Discriminative Deep Domain Generalization for Face Presentation Attack Detection

Detecting and Grounding Multi-Modal Media Manipulation

Open-set Adversarial Defense

Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy

Detecting and Recovering Sequential DeepFake Manipulation

Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation

Less is More: Empowering GUI Agent with Context-Aware Simplification