Alessio Tonioni

6

Papers

57

Total Citations

Papers (6)

Text-Conditioned Resampler For Long Form Video Understanding

Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos

Active Data Curation Effectively Distills Large-Scale Multimodal Models

Test-Time Visual In-Context Tuning

UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint

Zero-Shot Styled Text Image Generation, but Make It Autoregressive