Gao Huang

74

Papers

228

Total Citations

Papers (74)

GSVA: Generalized Segmentation via Multimodal Large Language Models

Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation

Video Perception Models for 3D Scene Synthesis

HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding

GridMix: Exploring Spatial Modulation for Neural Fields in PDE Modeling

DTOS: Dynamic Time Object Sensing with Large Multimodal Model

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning

Densely Connected Convolutional Networks

CondenseNet: An Efficient DenseNet Using Learned Group Convolutions

Resource Aware Person Re-Identification Across Multiple Resolutions

Resolution Adaptive Networks for Efficient Inference

CondenseNet V2: Sparse Feature Reactivation for Deep Networks

Cross-Iteration Batch Normalization

3D Object Detection With Pointformer

Vision Transformer With Deformable Attention

DiSparse: Disentangled Sparsification for Multitask Model Compression

On the Integration of Self-Attention and Convolution

Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

AutoLoss-Zero: Searching Loss Functions From Scratch for Generic Tasks

Exploring the Equivalence of Siamese Self-Supervised Learning via a Unified Gradient Framework

AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video Recognition

Towards All-in-One Pre-Training via Maximizing Multi-Modal Mutual Information

BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision

Zero-Shot Generative Model Adaptation via Image-Specific Prompt Learning

Siamese Image Modeling for Self-Supervised Vision Representation Learning

Slide-Transformer: Hierarchical Vision Transformer With Local Self-Attention

Learning Efficient Convolutional Networks Through Network Slimming

Improved Techniques for Training Adaptive Deep Networks

Adaptive Focus for Efficient Video Recognition

Towards Learning Spatially Discriminative Feature Representations

Frequency Domain Image Translation: More Photo-Realistic, Better Identity-Preserving

FLatten Transformer: Vision Transformer using Focused Linear Attention

Dynamic Perceiver for Efficient Visual Recognition

Adaptive Rotated Convolution for Rotated Object Detection

EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones

Deep Incubation: Training Large Models by Divide-and-Conquering

Borrowing Knowledge From Pre-trained Language Model: A New Data-efficient Visual Learning Paradigm

Spatially Adaptive Inference with Stochastic Feature Sampling and Interpolation

AdaFocusV3: On Unified Spatial-Temporal Dynamic Video Recognition

Learning to Weight Samples for Dynamic Early-Exiting Networks

ActiveNeRF: Learning Where to See with Uncertainty Estimation

Supervised Word Mover's Distance

CODA: Repurposing Continuous VAEs for Discrete Tokenization

Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment

EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding

DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints

ExpeL: LLM Agents Are Experiential Learners

Exploring Temporal Feature Correlation for Efficient and Stable Video Semantic Segmentation

Mask Grounding for Referring Image Segmentation

Asymmetric Valleys: Beyond Sharp and Flat Local Minima

Implicit Semantic Data Augmentation for Deep Networks

Regularized Anderson Acceleration for Off-Policy Deep Reinforcement Learning

Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification

Believe What You See: Implicit Constraint Approach for Offline Multi-Agent Reinforcement Learning

Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition

Searching Parameterized AP Loss for Object Detection

Efficient Knowledge Distillation from Model Checkpoints

Provable General Function Class Representation Learning in Multitask Bandits and MDP

Contrastive Language-Image Pre-Training with Knowledge Graphs

A Mixture Of Surprises for Unsupervised Reinforcement Learning

Latency-aware Spatial-wise Dynamic Networks

Rank-DETR for High Quality Object Detection

STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning

Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL