Xinlei Chen

33

Papers

165

Total Citations

Papers (33)

Transformers without Normalization

Scaling Language-Free Visual Representation Learning

R-MAE: Regions Meet Masked Autoencoders

PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining

LLMs can see and hear without any training

Multi-Target Embodied Question Answering

Grounded Video Description

Cycle-Consistency for Robust Visual Question Answering

Towards VQA Models That Can Read

ImVoteNet: Boosting 3D Object Detection in Point Clouds With Image Votes

In Defense of Grid Features for Visual Question Answering

Exploring Simple Siamese Representation Learning

Masked Autoencoders Are Scalable Vision Learners

On the Importance of Asymmetry for Siamese Representation Learning

Point-Level Region Contrast for Object Detection Pre-Training

ConvNeXt V2: Co-Designing and Scaling ConvNets With Masked Autoencoders

Improving Selective Visual Question Answering by Learning From Your Peers

Webly Supervised Learning of Convolutional Networks

Spatial Memory for Context Reasoning in Object Detection

Order-Aware Generative Modeling Using the 3D-Craft Dataset

Embodied Amodal Recognition: Learning to Move to Perceive Objects

TensorMask: A Foundation for Dense Object Segmentation

nocaps: novel object captioning at scale

Prior-Aware Neural Network for Partially-Supervised Multi-Organ Segmentation

An Empirical Study of Training Self-Supervised Vision Transformers

UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

Mind's Eye: A Recurrent Visual Representation for Image Caption Generation

Sense Discovery via Co-Clustering on Images and Text

Iterative Visual Reasoning Beyond Convolutions

Test-Time Training with Masked Autoencoders