Renrui Zhang

43

Papers

1,269

Total Citations

Papers (43)

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

FM-OV3D: Foundation Model-Based Cross-Modal Knowledge Blending for Open-Vocabulary 3D Detection

Cloud-Device Collaborative Learning for Multimodal Large Language Models

Detect Anything 3D in the Wild

Lumina-T2X: Scalable Flow-based Large Diffusion Transformer for Flexible Resolution Generation

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

PointCLIP: Point Cloud Understanding by CLIP

Prompt, Generate, Then Cache: Cascade of Foundation Models Makes Strong Few-Shot Learners

Starting From Non-Parametric Networks for 3D Point Cloud Analysis

Learning 3D Representations From 2D Pre-Trained Models via Image-to-Point Masked Autoencoders

iQuery: Instruments As Queries for Audio-Visual Sound Separation

EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding

Let's Verify and Reinforce Image Generation Step by Step

MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection

PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning

Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement

SparseMAE: Sparse Training Meets Masked Autoencoders

Exploring Resolution and Degradation Clues As Self-Supervised Signal for Low Quality Object Detection

Frozen CLIP Models Are Efficient Video Learners

Tip-Adapter: Training-Free Adaption of CLIP for Few-Shot Classification

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

Chimera: Improving Generalist Model with Domain-Specific Experts

TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction

Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs

MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

Parsing All Adverse Scenes: Severity-Aware Semantic Segmentation with Mask-Enhanced Cross-Domain Consistency

Gradient-based Parameter Selection for Efficient Fine-Tuning

Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation

NTO3D: Neural Target Object 3D Reconstruction with Segment Anything

SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models

Dual-stream Network for Visual Recognition

Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training

JourneyDB: A Benchmark for Generative Image Understanding