Linchao Zhu

43

Papers

76

Total Citations

Papers (43)

Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval

VideoGrain: Modulating Space-Time Attention for Multi-Grained Video Editing

From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment

HUST: High-Fidelity Unbiased Skin Tone Estimation via Texture Quantization

Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback

DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval

Stitching Segments and Sentences towards Generalization in Video-Text Pre-training

CapHuman: Capture Your Moments in Parallel Universes

Few-Shot Object Recognition From Machine-Labeled Web Images

Bidirectional Multirate Reconstruction for Temporal Modeling in Videos

Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation

Inflated Episodic Memory With Region Self-Attention for Long-Tailed Visual Recognition

Semantic Correspondence as an Optimal Transport Problem

Learning Filter Pruning Criteria for Deep Convolutional Neural Networks Acceleration

ActBERT: Learning Global-Local Video-Text Representations

Gated Channel Transformation for Visual Recognition

Faster Meta Update Strategy for Noise-Robust Deep Learning

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

OpenMix: Reviving Known Knowledge for Discovering Novel Visual Categories in an Open World

Unified Transformer Tracker for Object Tracking

SEEG: Semantic Energized Co-Speech Gesture Generation

A Simple Episodic Linear Probe Improves Visual Recognition in the Wild

Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning

Complex Video Action Reasoning via Learnable Markov Logic Network

Efficient Multimodal Fusion via Interactive Prompting

PointListNet: Deep Learning on 3D Point Lists

MIST: Multi-Modal Iterative Spatial-Temporal Transformer for Long-Form Video Question Answering

Auto-ReID: Searching for a Part-Aware ConvNet for Person Re-Identification

Dual Attention Matching for Audio-Visual Event Localization

Entangled Transformer for Image Captioning

H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction

Universal-Prototype Enhancing for Few-Shot Object Detection

A Multi-Mode Modulator for Multi-Domain Few-Shot Classification

Vector-Decomposed Disentanglement for Domain-Invariant Object Detection

Adaptive Hierarchical Graph Reasoning With Semantic Coherence for Video-and-Language Inference

MAAL: Multimodality-Aware Autoencoder-Based Affordance Learning for 3D Articulated Objects

SF-Net: Single-Frame Supervision for Temporal Action Localization

Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior

Learning to Transfer Learn: Reinforcement Learning-Based Selection for Adaptive Transfer Learning

Interactive Prototype Learning for Egocentric Action Recognition

MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs

Connective Cognition Network for Directional Visual Commonsense Reasoning

Fine-Grained Semantically Aligned Vision-Language Pre-Training