Qi Tian

156

Papers

2,469

Total Citations

Papers (156)

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

ControlVideo: Training-free Controllable Text-to-video Generation

GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models

Bottom-Up Temporal Action Localization with Mutual Regularization

Rethinking the Distribution Gap of Person Re-identification with Camera-based Batch Normalization

GaussianEditor: Editing 3D Gaussians Delicately with Text Instructions

Towards 3D Molecule-Text Interpretation in Language Models

LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection

Improving Image Restoration through Removing Degradations in Textual Representations

Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model

LION: Implicit Vision Prompt Tuning

CooGAN: A Memory-Efficient Framework for High-Resolution Facial Attribute Editing

C-CLIP: Multimodal Continual Learning for Vision-Language Model

Hybrid Distillation: Connecting Masked Autoencoders with Contrastive Learners

AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation

Boosting Segment Anything Model Towards Open-Vocabulary Learning

METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models

Optimize Incompatible Parameters Through Compatibility-aware Knowledge Integration

Multi-Cue Correlation Filters for Robust Visual Tracking

Deep Hashing via Discrepancy Minimization

Learning Channel-Wise Interactions for Binary Convolutional Neural Networks

Structural Relational Reasoning of Point Clouds

Deep Fitting Degree Scoring Network for Monocular 3D Object Detection

BridgeNet: A Continuity-Aware Probabilistic Network for Age Estimation

Iterative Reorganization With Weak Spatial Constraints: Solving Arbitrary Jigsaw Puzzles for Unsupervised Representation Learning

Variational Convolutional Neural Network Pruning

Towards Visual Feature Translation

Modeling Point Clouds With Self-Attention and Gumbel Subset Sampling

Actional-Structural Graph Convolutional Networks for Skeleton-Based Action Recognition

Deep Modular Co-Attention Networks for Visual Question Answering

Learning to Learn Image Classifiers With Visual Analogy

GhostNet: More Features From Cheap Operations

Dynamic Multiscale Graph Neural Networks for 3D Skeleton Based Human Motion Prediction

Unsupervised Person Re-Identification via Softened Similarity Learning

Frequency Domain Compact 3D Convolutional Neural Networks

Polishing Decision-Based Adversarial Noise With a Customized Sampling

Joint Demosaicing and Denoising With Self Guidance

A Semi-Supervised Assessor of Neural Architectures

Towards Discriminability and Diversity: Batch Nuclear-Norm Maximization Under Label Insufficient Situations

Learning to Select Base Classes for Few-Shot Classification

Creating Something From Nothing: Unsupervised Knowledge Distillation for Cross-Modal Hashing

CARS: Continuous Evolution for Efficient Neural Architecture Search

AdderNet: Do We Really Need Multiplications in Deep Learning?

Spatial-Temporal Graph Convolutional Network for Video-Based Person Re-Identification

Projection & Probability-Driven Black-Box Attack

Transformation GAN for Unsupervised Image Synthesis and Representation Learning

Video Super-Resolution With Temporal Group Attention

FM2u-Net: Face Morphological Multi-Branch Network for Makeup-Invariant Face Verification

Rethinking Performance Estimation in Neural Architecture Search

Gradually Vanishing Bridge for Adversarial Domain Adaptation

Label Decoupling Framework for Salient Object Detection

Cross-Domain Detection via Graph-Induced Prototype Alignment

Learning Temporal Co-Attention Models for Unsupervised Video Action Localization

Noise-Aware Fully Webly Supervised Object Detection

Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio

CondenseNet V2: Sparse Feature Reactivation for Deep Networks

UnrealPerson: An Adaptive Pipeline Towards Costless Person Re-Identification

Towards Compact CNNs via Collaborative Compression

ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised Image Segmentation

A Fourier-Based Framework for Domain Generalization

DATA: Domain-Aware and Task-Aware Self-Supervised Learning

HyperDet3D: Learning a Scene-Conditioned 3D Object Detector

Contextual Similarity Distillation for Asymmetric Image Retrieval

MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger Tokens

One-Bit Active Query With Contrastive Pairs

Partial Class Activation Attention for Semantic Segmentation

Wnet: Audio-Guided Video Object Segmentation via Wavelet-Based Cross-Modal Denoising Networks

DeeCap: Dynamic Early Exiting for Efficient Image Captioning

Learning To Learn by Jointly Optimizing Neural Architecture and Weights

Domain-Agnostic Prior for Transfer Semantic Segmentation

Distilling Vision-Language Pre-Training To Collaborate With Weakly-Supervised Temporal Action Localization

Open-Set Fine-Grained Retrieval via Prompting Vision-Language Evaluator

Adapting Shortcut With Normalizing Flow: An Efficient Tuning Framework for Visual Recognition

Being Comes From Not-Being: Open-Vocabulary Text-to-Motion Generation With Wordless Training

Integrally Pre-Trained Transformer Pyramid Networks

Federated Domain Generalization With Generalization Adjustment

Visual Recognition by Request

RIDE: Reversal Invariant Descriptor Enhancement

Scalable Person Re-Identification: A Benchmark

Multi-Task Learning With Low Rank Attribute Embedding for Person Re-Identification

Similarity Gaussian Process Latent Variable Model for Multi-Modal Data Analysis

Ensemble Diffusion for Retrieval

SORT: Second-Order Response Transform for Visual Recognition

Pose-Driven Deep Convolutional Model for Person Re-Identification

Multimodal Gaussian Process Latent Variable Models With Harmonization

Progressive Differentiable Architecture Search: Bridging the Depth Gap Between Search and Evaluation

Multinomial Distribution Learning for Effective Neural Architecture Search

Co-Evolutionary Compression for Unpaired Image Translation

Accelerate CNN via Recursive Bayesian Pruning

Data-Free Learning of Student Networks

Global-Local Temporal Representations for Video Person Re-Identification

Universal Perturbation Attack Against Image Retrieval

CenterNet: Keypoint Triplets for Object Detection

Dynamic Points Agglomeration for Hierarchical Point Sets Learning

AVT: Unsupervised Learning of Transformation Equivariant Representations by Autoencoding Variational Transformations

Differentiable Convolution Search for Point Cloud Processing

Foreground Activation Maps for Weakly Supervised Object Localization

Omni-GAN: On the Secrets of cGANs and Beyond

Greedy Gradient Ensemble for Robust Visual Question Answering

Pixel Difference Networks for Efficient Edge Detection

Visformer: The Vision-Friendly Transformer

Divide and Conquer for Single-Frame Temporal Action Localization

IM-Zero: Instance-level Motion Controllable Video Generation in a Zero-shot Manner

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models

Focus on Your Target: A Dual Teacher-Student Framework for Domain-Adaptive Semantic Segmentation

Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation

USAGE: A Unified Seed Area Generation Paradigm for Weakly Supervised Semantic Segmentation

Corner Proposal Network for Anchor-free, Two-stage Object Detection

Circumventing Outliers of AutoAugment with Knowledge Distillation

Social Adaptive Module for Weakly-supervised Group Activity Recognition

Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision

Large-Scale Few-Shot Learning via Multi-Modal Knowledge Discovery

Video Super-Resolution with Recurrent Structure-Detail Network

Wavelet-Based Dual-Branch Network for Image Demoiréing

API-Net: Robust Generative Classifier via a Single Discriminator

Reinforced Axial Refinement Network for Monocular 3D Object Detection

FTL: A universal framework for training low-bit DNNs via Feature Transfer

Extract and Merge: Superpixel Segmentation with Regional Attributes

Skeleton-Parted Graph Scattering Networks for 3D Human Motion Prediction

Cornerformer: Purifying Instances for Corner-Based Detectors

TAPE: Task-Agnostic Prior Embedding for Image Restoration

Active Pointly-Supervised Instance Segmentation

A Transformer-Based Decoder for Semantic Segmentation with Multi-level Context Mining

SdAE: Self-Distillated Masked Autoencoder

Vibration-Based Uncertainty Estimation for Learning from Limited Supervision

MVP: Multimodality-Guided Visual Pre-training

Shape Self-Correction for Unsupervised Point Cloud Understanding

CLIP-Adapted Region-to-Text Learning for Generative Open-Vocabulary Semantic Segmentation

Segment Any 3D Gaussians

Infinite-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

OVMR: Open-Vocabulary Recognition with Multi-Modal References

Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model

Query-Adaptive Late Fusion for Image Search and Person Re-Identification

Interaction Part Mining: A Mid-Level Approach for Fine-Grained Action Recognition

InterActive: Inter-Layer Activeness Propagation

Picking Deep Filter Responses for Fine-Grained Image Recognition

Cascaded Interactional Targeting Network for Egocentric Video Analysis

DisturbLabel: Regularizing CNN on the Loss Layer

Person Re-Identification in the Wild

Scalable Person Re-Identification on Supervised Smoothed Manifold

Task-Driven Dynamic Fusion: Reducing Ambiguity in Video Description

Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

Zigzag Learning for Weakly Supervised Object Detection

Information Competing Process for Learning Diversified Representations

One-bit Supervision for Image Classification

Self-Adaptively Learning to Demoiré from Focused and Defocused Image Pairs

Rectifying the Shortcut Learning of Background for Few-Shot Learning

Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence

Fine-Grained Semantically Aligned Vision-Language Pre-Training

ConfounderGAN: Protecting Image Data Privacy with Causal Confounder

Parameter-efficient Tuning of Large-scale Multimodal Foundation Model

Segment Anything in 3D with NeRFs

AiluRus: A Scalable ViT Framework for Dense Prediction

Learning to Parameterize Visual Attributes for Open-set Fine-grained Retrieval