Federico Tombari

29

Papers

239

Total Citations

Papers (29)

SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation

LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models

Learning to Prompt with Text Only Supervision for Vision-Language Models

CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation

Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos

Active Data Curation Effectively Distills Large-Scale Multimodal Models

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Video Perception Models for 3D Scene Synthesis

NeurIPS 2025arXiv

One2Any: One-Reference 6D Pose Estimation for Any Object

Contrastive Test-Time Composition of Multiple LoRA Models for Image Generation

ESCAPE: Equivariant Shape Completion via Anchor Point Encoding

Test-Time Visual In-Context Tuning

Gatekeeper: Improving Model Cascades Through Confidence Tuning

NeurIPS 2025arXiv

4D Gaussian Splatting SLAM

KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation

Prior2Former - Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation

UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint

Extracting Training Data From Document-Based VQA Models

RelationField: Relate Anything in Radiance Fields

MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning

Hierarchical 3D Scene Graphs Construction Outdoors

Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations

NeurIPS 2025arXiv

SceneFun3D: Fine-Grained Functionality and Affordance Understanding in 3D Scenes

CONFORM: Contrast is All You Need for High-Fidelity Text-to-Image Diffusion Models

Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning

MOHO: Learning Single-view Hand-held Object Reconstruction with Multi-view Occlusion-Aware Supervision

HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation

UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image