Yanfeng Wang

48

Papers

337

Total Citations

Papers (48)

Bottom-Up Temporal Action Localization with Mutual Regularization

ReMamber: Referring Image Segmentation with Mamba Twister

Audio-Visual Segmentation via Unlabeled Frame Exploitation

Towards Universal Soccer Video Understanding

Multi-Sentence Grounding for Long-term Instructional Video

4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video

On Harmonizing Implicit Subpopulations

Learning to Instruct for Visual Instruction Tuning

Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning

Fine-tuning with Reserved Majority for Noise Reduction

HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning

Q-value Regularized Transformer for Offline Reinforcement Learning

Locally Estimated Global Perturbations are Better than Local Perturbations for Federated Sharpness-aware Minimization

Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation

Exploring Training on Heterogeneous Data with Mixture of Low-rank Adapters

Diversified Batch Selection for Training Acceleration

Transferable Interactiveness Knowledge for Human-Object Interaction Detection

Actional-Structural Graph Convolutional Networks for Skeleton-Based Action Recognition

Dynamic Multiscale Graph Neural Networks for 3D Skeleton Based Human Motion Prediction

Iteratively-Refined Interactive 3D Medical Image Segmentation With Multi-Agent Reinforcement Learning

A Fourier-Based Framework for Domain Generalization

Distilling Vision-Language Pre-Training To Collaborate With Weakly-Supervised Temporal Action Localization

Leapfrog Diffusion Model for Stochastic Trajectory Prediction

Collaboration Helps Camera Overtake LiDAR in 3D Detection

EqMotion: Equivariant Multi-Agent Motion Prediction With Invariant Interaction Reasoning

DR2: Diffusion-Based Robust Degradation Remover for Blind Face Restoration

LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant

Accelerate CNN via Recursive Bayesian Pruning

H2O: A Benchmark for Visual Human-Human Object Handover Analysis

Divide and Conquer for Single-Frame Temporal Action Localization

MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training for X-ray Diagnosis

Joint-Relation Transformer for Multi-Person Motion Prediction

Open-vocabulary Object Segmentation with Diffusion Models

Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction

Federated Domain Generalization With Generalization Adjustment

Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training

MRGen: Segmentation Data Engine For Underrepresented MRI Modalities

RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis

VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression

Low-Rank Knowledge Decomposition for Medical Foundation Models

Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models

Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents

Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning

Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images

AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation

Combating Representation Learning Disparity with Geometric Harmonization

Federated Learning with Bilateral Curation for Partially Class-Disjoint Data

Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation