Yan Wang

39

Papers

179

Total Citations

Papers (39)

Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding

Language-Image Models with 3D Understanding

MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

MambaIC: State Space Models for High-Performance Learned Image Compression

Rethinking Diffusion Posterior Sampling: From Conditional Score Estimator to Maximizing a Posterior

Task-Aware Encoder Control for Deep Video Compression

Probability-Polarized Optimal Transport for Unsupervised Domain Adaptation

Partial Label Learning with a Partner

Spatially-Variant Degradation Model for Dataset-free Super-resolution

LLM4RSR: Large Language Models as Data Correctors for Robust Sequential Recommendation

Physical-aware Neural Radiance Fields for Efficient Exposure Correction

Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering

LLMRG: Improving Recommendations through Large Language Model Reasoning Graphs

Collaborative Consortium of Foundation Models for Open-World Few-Shot Learning

Object Attribute Matters in Visual Question Answering

Pixel-level Semantic Correspondence through Layout-aware Representation Learning and Multi-scale Matching Integration

CAMixerSR: Only Details Need More "Attention"

Boosting Neural Representations for Videos with a Conditional Decoder

Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-modal Language Models

Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning

AdaRevD: Adaptive Patch Exiting Reversible Decoder Pushes the Limit of Image Deblurring

CogAgent: A Visual Language Model for GUI Agents

RepAn: Enhanced Annealing through Re-parameterization

PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving

Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities

An Embodied Generalist Agent in 3D World

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

PICD: Versatile Perceptual Image Compression with Diffusion Rendering

D2SP: Dynamic Dual-Stage Purification Framework for Dual Noise Mitigation in Vision-based Affective Recognition.

Medusa: A Multi-Scale High-order Contrastive Dual-Diffusion Approach for Multi-View Clustering

Extrapolated Urban View Synthesis Benchmark

MamV2XCalib: V2X-based Target-less Infrastructure Camera Calibration with State Space Model

OUS: Bridging Scene Context and Facial Features to Overcome the Rigid Cognitive Problem

CAMSIC: Content-aware Masked Image Modeling Transformer for Stereo Image Compression

GapMatch: Bridging Instance and Model Perturbations for Enhanced Semi-Supervised Medical Image Segmentation

Variable Importance in High-Dimensional Settings Requires Grouping

Fine-Tuning Large Language Model Based Explainable Recommendation with Explainable Quality Reward

A User-Friendly Framework for Generating Model-Preferred Prompts in Text-to-Image