Zheng Zhang

80

Papers

628

Total Citations

Papers (80)

Disentangled Non-local Neural Networks

Pixel-GS Density Control with Pixel-aware Gradient for 3D Gaussian Splatting

Investigating and Mitigating the Side Effects of Noisy Views for Self-Supervised Clustering Algorithms in Practical Multi-View Scenarios

PolaFormer: Polarity-aware Linear Attention for Vision Transformers

Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems

Masked Structural Growth for 2x Faster Language Model Pre-training

Saliency-based Sequential Image Attention with Multiset Prediction

NeurIPS 2017arXiv

Learning to Complement and to Defer to Multiple Users

Projection Pursuit Density Ratio Estimation

Intent Oriented Contrastive Learning for Sequential Recommendation

BiPFT: Binary Pre-trained Foundation Transformer with Low-Rank Estimation of Binarization Residual Polynomials

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

Adaptive Slot Attention: Object Discovery with Dynamic Slot Number

Segment and Caption Anything

Language-Driven Cross-Modal Classifier for Zero-Shot Multi-Label Image Recognition

GroupCover: A Secure, Efficient and Scalable Inference Framework for On-device Model Protection based on TEEs

SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms

The Application of Two-Level Attention Models in Deep Convolutional Neural Network for Fine-Grained Image Classification

Symmetry-Based Text Line Detection in Natural Scenes

Multimodal Spontaneous Emotion Corpus for Human Behavior Analysis

Multi-Oriented Text Detection With Fully Convolutional Networks

Relation Networks for Object Detection

Attentive Region Embedding Network for Zero-Shot Learning

Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning

Prototype-Supervised Adversarial Network for Targeted Attack of Deep Hashing

Swin Transformer V2: Scaling Up Capacity and Resolution

SimMIM: A Simple Framework for Masked Image Modeling

Video Swin Transformer

TinyMIM: An Empirical Study of Distilling MIM Pre-Trained Models

On Data Scaling in Masked Image Modeling

Side Adapter Network for Open-Vocabulary Semantic Segmentation

Revealing the Dark Secrets of Masked Image Modeling

iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition

Multiple Granularity Descriptors for Fine-Grained Categorization

Local Relation Networks for Image Recognition

Spatial-Temporal Relation Networks for Multi-Object Tracking

An Empirical Study of Spatial Attention Mechanisms in Deep Networks

Learning Hierarchical Graph Neural Networks for Image Clustering

Group-Free 3D Object Detection via Transformers

Semantics Disentangling for Generalized Zero-Shot Learning

Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

End-to-End Semi-Supervised Object Detection With Soft Teacher

A Semantic Knowledge Complementarity based Decoupling Framework for Semi-supervised Class-imbalanced Medical Image Segmentation

KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection

Object-Centric Multiple Object Tracking

Unsupervised Open-Vocabulary Object Localization in Videos

DETR Does Not Need Multi-Scale or Locality Design

All in Tokens: Unifying Output Space of Visual Tasks via Soft Token

Dual Learning with Dynamic Knowledge Distillation for Partially Relevant Video Retrieval

Improving CLIP Fine-tuning Performance

Coarse-to-Fine Amodal Segmentation with Shape Prior

Spatially Adaptive Inference with Stochastic Feature Sampling and Interpolation

Negative Margin Matters: Understanding Margin in Few-shot Classification

Region Graph Embedding Network for Zero-Shot Learning

A Closer Look at Local Aggregation Operators in Point Cloud Analysis

"A Simple Approach and Benchmark for 21,000-Category Object Detection"

A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-Language Model

PSS: Progressive Sample Selection for Open-World Visual Representation Learning

Rethinking Amodal Video Segmentation from Learning Supervised Signals with Object-centric Representation

Optimal Transport-Guided Source-Free Adaptation for Face Anti-Spoofing

StableDepth: Scene-Consistent and Scale-Invariant Monocular Depth

Portcullis: A Scalable and Verifiable Privacy Gateway for Third-Party LLM Inference

OT-StainNet: Optimal Transport Driven Semantic Matching for Weakly Paired H&E-to-IHC Stain Transfer

Transferable Adversarial Face Attack with Text Controlled Attribute

Distribution-Driven Dense Retrieval: Modeling Many-to-One Query-Document Relationship

FlightBERT++: A Non-autoregressive Multi-Horizon Flight Trajectory Prediction Framework

Integrated Decision Gradients: Compute Your Attributions Where the Model Makes Its Decision

CONSIDER: Commonalities and Specialties Driven Multilingual Code Retrieval Framework

Loss Functions for Multiset Prediction

RepPoints v2: Verification Meets Regression for Object Detection

Parametric Instance Classification for Unsupervised Visual Feature learning

Representation Learning on Spatial Networks

Bootstrap Your Object Detector via Mixed Training

GRIN: Generative Relation and Intention Network for Multi-agent Trajectory Prediction

Self-supervised Amodal Video Object Segmentation

Could Giant Pre-trained Image Models Extract Universal Representations?

Learning Enhanced Representation for Tabular Data via Neighborhood Propagation

Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning

Curriculum Learning for Graph Neural Networks: Which Edges Should We Learn First

Evaluating Open-QA Evaluation