AJ Piergiovanni

17

Papers

279

Total Citations

Papers (17)

On Scaling Up a Multilingual Vision and Language Model

Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities

Representation Flow for Action Recognition

Evolving Losses for Unsupervised Video Representation Learning

Recognizing Actions in Videos From Unseen Viewpoints

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

Evolving Space-Time Neural Architectures for Videos

4D-Net for Learned Multi-Modal Alignment

Adversarial Generative Grammars for Human Activity Prediction

AttentionNAS: Spatiotemporal Attention Cell Search for Video Classification

AssembleNet++: Assembling Modality Representations via Attention Connections - Supplementary Material -

Video Question Answering with Iterative Video-Text Co-Tokenization

FindIt: Generalized Localization with Natural Language Queries

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models

Learning Latent Super-Events to Detect Multiple Activities in Videos

AViD Dataset: Anonymized Videos from Diverse Countries

TokenLearner: Adaptive Space-Time Tokenization for Videos