Christoph Feichtenhofer

37

Papers

961

Total Citations

Papers (37)

Spatiotemporal Residual Networks for Video Action Recognition

NeurIPS 2016arXiv

Demystifying CLIP Data

An Empirical Study of Autoregressive Pre-training from Videos

Temporal Residual Networks for Dynamic Scene Recognition

Spatiotemporal Multiplier Networks for Video Action Recognition

What Have We Learned From Deep Representations for Action Recognition?

Long-Term Feature Banks for Detailed Video Understanding

3D Human Pose Estimation in Video With Temporal Convolutions and Semi-Supervised Training

A Multigrid Method for Efficiently Training Video Models

Ego-Topo: Environment Affordances From Egocentric Video

X3D: Expanding Architectures for Efficient Video Recognition

A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

Reversible Vision Transformers

Masked Feature Prediction for Self-Supervised Visual Pre-Training

A ConvNet for the 2020s

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection

Ego4D: Around the World in 3,000 Hours of Egocentric Video

On the Benefits of 3D Pose and Tracking for Human Action Recognition

Scaling Language-Image Pre-Training via Masking

Multiview Compressive Coding for 3D Reconstruction

Detect to Track and Track to Detect

SlowFast Networks for Video Recognition

Grounded Human-Object Interaction Hotspots From Video

Multiscale Vision Transformers

Multiview Pseudo-Labeling for Semi-Supervised Learning From Video

The Effectiveness of MAE Pre-Pretraining for Billion-Scale Pretraining

CiT: Curation in Training for Effective Vision-Language Data

Diffusion Models as Masked Autoencoders

TrackFormer: Multi-Object Tracking With Transformers

Dynamically Encoded Actions Based on Spacetime Saliency

Convolutional Two-Stream Network Fusion for Video Action Recognition

Learning Temporal Pose Estimation from Sparsely-Labeled Videos

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

Masked Autoencoders that Listen

Masked Autoencoders As Spatiotemporal Learners

MAViL: Masked Audio-Video Learners