Federico Tombari

85

Papers

229

Total Citations

Papers (85)

SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation

LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models

Learning to Prompt with Text Only Supervision for Vision-Language Models

CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation

Active Data Curation Effectively Distills Large-Scale Multimodal Models

Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

One2Any: One-Reference 6D Pose Estimation for Any Object

Video Perception Models for 3D Scene Synthesis

Test-Time Visual In-Context Tuning

Gatekeeper: Improving Model Cascades Through Confidence Tuning

NeurIPS 2025arXiv

4D Gaussian Splatting SLAM

KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation

Prior2Former - Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation

UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint

Query-Guided End-To-End Person Search

3D Point Capsule Networks

GFrames: Gradient-Based Local Reference Frame for 3D Shape Matching

Learning 3D Semantic Scene Graphs From 3D Indoor Reconstructions

Semantic Image Manipulation Using Scene Graphs

Learning Graph Embeddings for Compositional Zero-Shot Learning

Variational Transformer Networks for Layout Generation

SceneGraphFusion: Incremental 3D Scene Graph Prediction From RGB-D Sequences

GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation

ZebraPose: Coarse To Fine Surface Encoding for 6DoF Object Pose Estimation

3D-VField: Adversarial Augmentation of Point Clouds for Domain Generalization in 3D Object Detection

Bending Graphs: Hierarchical Shape Matching Using Gated Optimal Transport

Learning Local Displacements for Point Cloud Completion

GPV-Pose: Category-Level Object Pose Estimation via Geometry-Guided Point-Wise Voting

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation

Shape, Pose, and Appearance From a Single Image via Bootstrapped Radiance Field Inversion

Incremental 3D Semantic Scene Graph Prediction From RGB Sequences

IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint Multi-Agent Trajectory Prediction

I2MVFormer: Large Language Model Generated Multi-View Document Supervision for Zero-Shot Image Classification

SPARF: Neural Radiance Fields From Sparse and Noisy Poses

A Versatile Learning-Based 3D Temporal Tracker: Scalable, Robust, Online

Learning a Descriptor-Specific 3D Keypoint Detector

SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again

Learning in an Uncertain World: Representing Ambiguity Through Multiple Hypotheses

Long Short-Term Memory Kalman Filters: Recurrent Neural Estimators for Pose Regularization

Sampling-Free Epistemic Uncertainty Estimation Using Approximated Variance Propagation

Object-Driven Multi-Layer Scene Decomposition From a Single Image

Explaining the Ambiguity of Object Detection and 6D Pose From Visual Data

RIO: 3D Object Instance Re-Localization in Changing Indoor Environments

ForkNet: Multi-Branch Volumetric Semantic Completion From a Single Depth Image

SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation

Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using Scene Graphs

UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image

Dynamic Hyperbolic Attention Network for Fine Hand-object Reconstruction

SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection

U-RED: Unsupervised 3D Shape Retrieval and Deformation for Partial Point Clouds

Introducing Language Guidance in Prompt-based Continual Learning

Segmenting Known Objects and Unseen Unknowns without Prior Knowledge

Robust Monocular Depth Estimation under Challenging Conditions

Quaternion Equivariant Capsule Networks for 3D Point Clouds

Self6D: Self-Supervised Monocular 6D Object Pose Estimation

SoftPoolNet: Shape Descriptor for Point Cloud Completion and Classification

Beyond Controlled Environments: 3D Camera Re-Localization in Changing Indoor Scenes

Deep Positional and Relational Feature Learning for Rotation-Invariant Point Cloud Analysis

RBP-Pose: Residual Bounding Box Projection for Category-Level Pose Estimation

E-Graph: Minimal Solution for Rigid Rotation with Extensibility Graphs

Implicit Neural Representations for Image Compression

3D Compositional Zero-Shot Learning with DeCompositional Consensus

GOCA: Guided Online Cluster Assignment for Self-Supervised Video Representation Learning

Unconditional Scene Graph Generation

RelationField: Relate Anything in Radiance Fields

ESCAPE: Equivariant Shape Completion via Anchor Point Encoding

MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning

Contrastive Test-Time Composition of Multiple LoRA Models for Image Generation

Hierarchical 3D Scene Graphs Construction Outdoors

Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations

SceneFun3D: Fine-Grained Functionality and Affordance Understanding in 3D Scenes

CONFORM: Contrast is All You Need for High-Fidelity Text-to-Image Diffusion Models

Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning

MOHO: Learning Single-view Hand-held Object Reconstruction with Multi-view Occlusion-Aware Supervision

HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation

Extracting Training Data From Document-Based VQA Models

Real-Time 3D Model Tracking in Color and Depth on a Single CPU Core

CNN-SLAM: Real-Time Dense Monocular SLAM With Learned Depth Prediction

Guide Me: Interacting With Deep Networks

I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification

CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion

DDF-HO: Hand-Held Object Reconstruction via Conditional Directed Distance Field

OpenMask3D: Open-Vocabulary 3D Instance Segmentation