Rongrong Ji

38

Papers

1,618

Total Citations

Papers (38)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Autoregressive Queries for Adaptive Tracking with Spatio-Temporal Transformers

Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation

AffineQuant: Affine Transformation Quantization for Large Language Models

Towards General Visual-Linguistic Face Forgery Detection

AccDiffusion: An Accurate Method for Higher-Resolution Image Generation

Attention Disturbance and Dual-Path Constraint Network for Occluded Person Re-identification

AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models

CamoTeacher: Dual-Rotation Consistency Learning for Semi-Supervised Camouflaged Object Detection

VTON-HandFit: Virtual Try-on for Arbitrary Hand Pose Guided by Hand Priors Embedding

DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective

UniPTS: A Unified Framework for Proficient Post-Training Sparsity

Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models

From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning

Learning Image Demoireing from Unpaired Real Data

PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization

GraCo: Granularity-Controllable Interactive Segmentation

Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive Segmentation

FocSAM: Delving Deeply into Focused Objects in Segmenting Anything

Aligning and Prompting Everything All at Once for Universal Visual Perception

SVFR: A Unified Framework for Generalized Video Face Restoration

DS-VLM: Diffusion Supervision Vision Language Model

polybasic Speculative Decoding Through a Theoretical Perspective

Outlier-aware Slicing for Post-Training Quantization in Vision Transformer

X-Oscar: A Progressive Framework for High-quality Text-guided 3D Animatable Avatar Generation

Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models

SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation

CaM: Cache Merging for Memory-efficient LLMs Inference

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization

ERQ: Error Reduction for Post-Training Quantization of Vision Transformers

Integrating Global Context Contrast and Local Sensitivity for Blind Image Quality Assessment

OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers