Ke Li

Google Scholar OpenReview

75

Papers

2,298

Total Citations

2

h-index

1

Affiliations

Affiliations

Xidian University

Papers (75)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

Constrained Bayesian Optimization under Partial Observations: Balanced Improvements and Provable Convergence

Weakly Supervised Open-Vocabulary Object Detection

FD2-Net: Frequency-Driven Feature Decomposition Network for Infrared-Visible Object Detection

Reinforcement Learning Friendly Vision-Language Model for Minecraft

SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric Positive Definite Space

Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning

Feature Denoising Diffusion Model for Blind Image Quality Assessment

Destroy and Repair Using Hyper-Graphs for Routing

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

VA-AR: Learning Velocity-Aware Action Representations with Mixture of Window Attention

Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models

A General and Efficient Training for Transformer via Token Expansion

Aligning and Prompting Everything All at Once for Universal Visual Perception

Integrating Global Context Contrast and Local Sensitivity for Blind Image Quality Assessment

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

Iterative Instance Segmentation

Generalising Fine-Grained Sketch-Based Image Retrieval

Non-Adversarial Image Synthesis With Generative Latent Nearest Neighbors

Filter Grafting for Deep Neural Networks

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Pose Recognition With Cascade Transformers

DeRF: Decomposed Radiance Fields

Removing the Background by Adding the Background: Towards Background Robust Self-Supervised Video Representation Learning

Training-Free Transformer Architecture Search

SCADE: NeRFs from Space Carving With Ambiguity-Aware Depth Estimates

Photo Pre-Training, but for Sketch

Black-Box Sparse Adversarial Attack via Multi-Objective Optimisation

CLIP Is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic Segmentation

SketchXAI: A First Look at Explainability for Human Sketches

Diverse Image Synthesis From Semantic Layouts via Conditional IMLE

Architecture Disentanglement for Deep Neural Networks

Variational Attention: Propagating Domain-Specific Knowledge for Multi-Domain Learning in Crowd Counting

DiffFacto: Controllable Part-Based 3D Point Cloud Generation with Cross Diffusion

Masked Autoencoders are Efficient Class Incremental Learners

MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection

Inclusive GAN: Improving Data and Minority Coverage in Generative Models

Efficient Decoder-Free Object Detection with Transformers

Fine-Grained Data Distribution Alignment for Post-Training Quantization

Dynamic Dual Trainable Bounds for Ultra-Low Precision Super-Resolution Networks

ARM: Any-Time Super-Resolution Method

DisCo: Remedying Self-Supervised Learning on Lightweight Models with Distilled Contrastive Learning

Long-Tailed Class Incremental Learning

Bridging Sequence-Structure Alignment in RNA Foundation Models

Distilling Spatially-Heterogeneous Distortion Perception for Blind Image Quality Assessment

Global Motion Corresponder for 3D Point-Based Scene Interpolation under Large Motion

Radiance Fields in XR: A Survey on How Radiance Fields are Envisioned and Addressed for XR Research

VersaGen: Unleashing Versatile Visual Control for Text-to-Image Synthesis

Know Where You Are From: Event-Based Segmentation via Spatio-Temporal Propagation

ESEG: Event-Based Segmentation Boosted by Explicit Edge-Semantic Guidance

Probability-Density-aware Semi-supervised Learning

Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators

MoFlow: One-Step Flow Matching for Human Trajectory Forecasting via Implicit Maximum Likelihood Estimation based Distillation

Semi-supervised Blind Image Quality Assessment through Knowledge Distillation and Incremental Learning

Unleashing Channel Potential: Space-Frequency Selection Convolution for SAR Object Detection

Solving the Catastrophic Forgetting Problem in Generalized Category Discovery

PAPR in Motion: Seamless Point-level 3D Scene Interpolation

Approximate Feature Collisions in Neural Nets

Pruning Filter in Filter

Variational Model Inversion Attacks

CHIMLE: Conditional Hierarchical IMLE for Multimodal Conditional Image Synthesis

Learning Best Combination for Efficient N:M Sparsity

Micro and Macro Level Graph Modeling for Graph Variational Auto-Encoders

PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining

Multi-modal Queried Object Detection in the Wild

NeRF Revisited: Fixing Quadrature Instability in Volume Rendering

“Why Not Looking backward?” A Robust Two-Step Method to Automatically Terminate Bayesian Optimization

CAPro: Webly Supervised Learning with Cross-modality Aligned Prototypes

Learning from Visual Observation via Offline Pretrained State-to-Go Transformer

PAPR: Proximity Attention Point Rendering

CamoPatch: An Evolutionary Strategy for Generating Camoflauged Adversarial Patches

Fast k-Nearest Neighbour Search via Dynamic Continuous Indexing

Fast k-Nearest Neighbour Search via Prioritized DCI