Qing Li

26

Papers

216

Total Citations

Papers (26)

CLOVA: A Closed-LOop Visual Assistant with Tool Usage and Update

Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

Neural-Symbolic Recursive Machine for Systematic Generalization

CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization

Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding

Cross Initialization for Face Personalization of Text-to-Image Models

MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

ESE: Espresso Sentence Embeddings

EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models

SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders

Efficient Robustness Evaluation via Constraint Relaxation

FIRM: Flexible Interactive Reflection ReMoval

SPC-GS: Gaussian Splatting with Semantic-Prompt Consistency for Indoor Open-World Free-view Synthesis from Sparse Inputs

PairEdit: Learning Semantic Variations for Exemplar-based Image Editing

Explicitly Guided Difficulty-Controllable Visual Question Generation

Automated Defect Report Generation for Enhanced Industrial Quality Control

One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware Quantization Training

Learning Normals of Noisy Points by Local Gradient-Aware Surface Filtering

METASCENES: Towards Automated Replica Creation for Real-world 3D Scans

Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior

An Embodied Generalist Agent in 3D World

Revolutionizing Encrypted Traffic Classification with MH-Net: A Multi-View Heterogeneous Graph Model

End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations