Yunhang Shen

36

Papers

2,185

Total Citations

10

h-index

Papers (36)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

Enabling Deep Residual Networks for Weakly Supervised Object Detection

Weakly Supervised Open-Vocabulary Object Detection

SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric Positive Definite Space

Feature Denoising Diffusion Model for Blind Image Quality Assessment

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression

Dynamic Contrastive Knowledge Distillation for Efficient Image Restoration

Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models

From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning

BUFF: Bayesian Uncertainty Guided Diffusion Probabilistic Model for Single Image Super-Resolution

Noise-Aware Fully Webly Supervised Object Detection

Toward Joint Thing-and-Stuff Mining for Weakly Supervised Panoptic Segmentation

Active Teacher for Semi-Supervised Object Detection

HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regularization

Parallel Detection-and-Segmentation Learning for Weakly Supervised Instance Segmentation

Category-aware Allocation Transformer for Weakly Supervised Object Localization

Efficient Decoder-Free Object Detection with Transformers

ECO-TR: Efficient Correspondences Finding via Coarse-to-Fine Refinement

Fine-Grained Data Distribution Alignment for Post-Training Quantization

PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

Dynamic Dual Trainable Bounds for Ultra-Low Precision Super-Resolution Networks

SeqTR: A Simple Yet Universal Network for Visual Grounding

Integrating Global Context Contrast and Local Sensitivity for Blind Image Quality Assessment

Weakly Supervised Semantic Segmentation via Progressive Confidence Region Expansion

Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

Probability-Density-aware Semi-supervised Learning

Semi-supervised Blind Image Quality Assessment through Knowledge Distillation and Incremental Learning

Solving the Catastrophic Forgetting Problem in Generalized Category Discovery

A General and Efficient Training for Transformer via Token Expansion

Aligning and Prompting Everything All at Once for Universal Visual Perception

DS-VLM: Diffusion Supervision Vision Language Model

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

Cyclic Guidance for Weakly Supervised Joint Detection and Segmentation

UWSOD: Toward Fully-Supervised-Level Capacity Weakly Supervised Object Detection

CAPro: Webly Supervised Learning with Cross-modality Aligned Prototypes