Ya Zhang

57

Papers

330

Total Citations

Papers (57)

Bottom-Up Temporal Action Localization with Mutual Regularization

ReMamber: Referring Image Segmentation with Mamba Twister

Audio-Visual Segmentation via Unlabeled Frame Exploitation

Towards Universal Soccer Video Understanding

Multi-Sentence Grounding for Long-term Instructional Video

On Harmonizing Implicit Subpopulations

Multi-modal Medical Diagnosis via Large-small Model Collaboration

Learning to Instruct for Visual Instruction Tuning

Fine-tuning with Reserved Majority for Noise Reduction

Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning

Exploring Training on Heterogeneous Data with Mixture of Low-rank Adapters

Diversified Batch Selection for Training Acceleration

Part-Stacked CNN for Fine-Grained Visual Categorization

Separating Style and Content for Generalized Style Transfer

Actional-Structural Graph Convolutional Networks for Skeleton-Based Action Recognition

Dynamic Multiscale Graph Neural Networks for 3D Skeleton Based Human Motion Prediction

Iteratively-Refined Interactive 3D Medical Image Segmentation With Multi-Agent Reinforcement Learning

Collaborative Motion Prediction via Neural Motion Message Passing

A Fourier-Based Framework for Domain Generalization

LAR-SR: A Local Autoregressive Model for Image Super-Resolution

GroupNet: Multiscale Hypergraph Neural Networks for Trajectory Prediction With Relational Reasoning

Task Decoupled Framework for Reference-Based Super-Resolution

Distilling Vision-Language Pre-Training To Collaborate With Weakly-Supervised Temporal Action Localization

Controllable Mesh Generation Through Sparse Latent Point Diffusion Models

DR2: Diffusion-Based Robust Degradation Remover for Blind Face Restoration

Federated Domain Generalization With Generalization Adjustment

Class-Balancing Diffusion Models

Augmenting Strong Supervision Using Web Data for Fine-Grained Categorization

SORT: Second-Order Response Transform for Visual Recognition

Accelerate CNN via Recursive Bayesian Pruning

CaT: Weakly Supervised Object Detection With Category Transfer

Divide and Conquer for Single-Frame Temporal Action Localization

MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training for X-ray Diagnosis

Joint-Relation Transformer for Multi-Person Motion Prediction

Open-vocabulary Object Segmentation with Diffusion Models

FTL: A universal framework for training low-bit DNNs via Feature Transfer

Skeleton-Parted Graph Scattering Networks for 3D Human Motion Prediction

Registration Based Few-Shot Anomaly Detection

Prompting Visual-Language Models for Efficient Video Understanding

Enhanced Multimodal Representation Learning With Cross-Modal KD

MRGen: Segmentation Data Engine For Underrepresented MRI Modalities

RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis

MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models

Low-Rank Knowledge Decomposition for Medical Foundation Models

Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning

Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images

HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning

Q-value Regularized Transformer for Offline Reinforcement Learning

Locally Estimated Global Perturbations are Better than Local Perturbations for Federated Sharpness-aware Minimization

Masking: A New Perspective of Noisy Supervision

Graph Cross Networks with Vertex Infomax Pooling

Collaborative Uncertainty in Multi-Agent Trajectory Forecasting

AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation

Combating Representation Learning Disparity with Geometric Harmonization

Asynchrony-Robust Collaborative Perception via Bird's Eye View Flow

Federated Learning with Bilateral Curation for Partially Class-Disjoint Data

Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation