Yu Qiao

70

Papers

6,052

Total Citations

Papers (70)

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

VBench: Comprehensive Benchmark Suite for Video Generative Models

MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

VideoMamba: State Space Model for Efficient Video Understanding

SinSR: Diffusion-Based Image Super-Resolution in a Single Step

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

Generalized Predictive Model for Autonomous Driving

VideoBooth: Diffusion-based Video Generation with Image Prompts

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation

Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

REEF: Representation Encoding Fingerprints for Large Language Models

SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

An Intelligent Agentic System for Complex Image Restoration Problems

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

CO2: Efficient Distributed Training with Full Communication-Computation Overlap

Asymmetric Masked Distillation for Pre-Training Small Foundation Models

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

OS-ATLAS: Foundation Action Model for Generalist GUI Agents

Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving

HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding

Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification

Mask as Supervision: Leveraging Unified Mask Information for Unsupervised 3D Pose Estimation

Towards Explicit Exoskeleton for the Reconstruction of Complicated 3D Human Avatars

GigaGS: 3D Gaussian Based Planar Representation for Large-Scene Surface Reconstruction

Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings

Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model

Point Transformer V3: Simpler Faster Stronger

ConditionVideo: Training-Free Condition-Guided Video Generation

M-BEV: Masked BEV Perception for Robust Autonomous Driving

Critic-Guided Decision Transformer for Offline Reinforcement Learning

Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption

Vlogger: Make Your Dream A Vlog

EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion

ScoreHypo: Probabilistic Human Mesh Estimation with Hypothesis Scoring

Muses: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration

Language-aware Visual Semantic Distillation for Video Question Answering

Generate Like Experts: Multi-Stage Font Generation by Incorporating Font Transfer Process into Diffusion Models

DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations

DiffInDScene: Diffusion-based High-Quality 3D Indoor Scene Generation

Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

LLaMA-Excitor: General Instruction Tuning via Indirect Feature Interaction

The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Models

All-Day Multi-Camera Multi-Target Tracking

Unifying Image Processing as Visual Prompting Question Answering

Position: Towards Implicit Prompt For Text-To-Image Models

RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

OneLLM: One Framework to Align All Modalities with Language

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM