Marc Pollefeys

162

Papers

469

Total Citations

Papers (162)

NeRF On-the-go: Exploiting Uncertainty for Distractor-free NeRFs in the Wild

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry

GLACE: Global Local Accelerated Coordinate Encoding

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion

EgoGen: An Egocentric Synthetic Data Generator

Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces

GeoCalib: Learning Single-image Calibration with Geometric Optimization

Infrastructure-based Multi-Camera Calibration using Radial Projections

Multi-Level Neural Scene Graphs for Dynamic Urban Environments

Diffusion Bridges for 3D Point Cloud Denoising

F3Loc: Fusion and Filtering for Floorplan Localization

Where am I? Scene Retrieval with Language

3D Neural Edge Reconstruction

Matching neural paths: transfer from recognition to correspondence search

NeurIPS 2017arXiv

GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image

Learning to Make Keypoints Sub-Pixel Accurate

MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion

CrossOver: 3D Scene Cross-Modal Alignment

FlowR: Flowing from Sparse to Dense 3D Reconstructions

Video Perception Models for 3D Scene Synthesis

ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

EgoM2P: Egocentric Multimodal Multitask Pretraining

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection

Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information

CroCoDL: Cross-device Collaborative Dataset for Localization

Multi-View 3D Point Tracking

Sparse to Dense 3D Reconstruction From Rolling Shutter Images

Semantic 3D Reconstruction With Continuous Regularization and Ray Potentials Using a Visibility Consistency Constraint

Designing Effective Inter-Pixel Information Flow for Natural Image Matting

SGM-Nets: Semi-Global Matching With Neural Networks

Comparative Evaluation of Hand-Crafted and Learned Local Features

Are Large-Scale 3D Models Really Necessary for Accurate Visual Localization?

Quad-Networks: Unsupervised Learning to Rank for Interest Point Detection

A Multi-View Stereo Benchmark With High-Resolution Images and Multi-Camera Videos

Toroidal Constraints for Two-Point Localization Under High Outlier Ratios

Consensus Maximization With Linear Matrix Inequality Constraints

Fast 3D Reconstruction of Faces With Glasses

Hybrid Camera Pose Estimation

Augmenting Crowd-Sourced 3D Reconstructions Using Semantic Detections

Semantic Visual Localization

InLoc: Indoor Visual Localization With Dense Matching and View Synthesis

Consensus Maximization for Semantic Region Correspondences

Benchmarking 6DOF Outdoor Visual Localization in Changing Conditions

BAD SLAM: Bundle Adjusted Direct RGB-D SLAM

Understanding the Limitations of CNN-Based Absolute Camera Pose Regression

DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene From Sparse LiDAR Data and Single Color Image

H+O: Unified Egocentric Recognition of 3D Hand-Object Poses and Interactions

Privacy Preserving Image-Based Localization

Hybrid Scene Compression for Visual Localization

D2-Net: A Trainable CNN for Joint Description and Detection of Local Features

A Cross-Season Correspondence Dataset for Robust Semantic Segmentation

3D Appearance Super-Resolution With Deep Learning

Why Having 10,000 Parameters in Your Camera Model Is Better Than Twelve

Leveraging Photometric Consistency Over Time for Sparsely Supervised Hand-Object Reconstruction

DIST: Rendering Deep Implicit Signed Distance Function With Differentiable Sphere Tracing

Geometry-Aware Satellite-to-Ground Image Synthesis for Urban Areas

Self-Supervised Human Depth Estimation From Monocular Videos

Deep Shutter Unrolling Network

RoutedFusion: Learning Real-Time Depth Map Fusion

Privacy Preserving Localization and Mapping From Uncalibrated Cameras

Holistic 3D Scene Understanding From a Single Image With Implicit Representation

Privacy-Preserving Image Features via Adversarial Affine Subspace Embeddings

DeepVideoMVS: Multi-View Stereo on Video With Recurrent Spatio-Temporal Fusion

Back to the Feature: Learning Robust Camera Localization From Pixels To Pose

NeuralFusion: Online Depth Fusion in Latent Space

DeFMO: Deblurring and Shape Recovery of Fast Moving Objects

SOLD2: Self-Supervised Occlusion-Aware Line Description and Detection

PatchmatchNet: Learned Multi-View Patchmatch Stereo

DeepSurfels: Learning Online Appearance Fusion

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM

IterMVS: Iterative Probability Estimation for Efficient Multi-View Stereo

Motion-From-Blur: 3D Shape and Motion Estimation of Motion-Blurred Objects in Videos

Context-Aware Sequence Alignment Using 4D Skeletal Augmentation

Camera Pose Estimation Using Implicit Distortion Models

Privacy Preserving Partial Localization

Learning To Align Sequential Actions in the Wild

Learning To Find Good Models in RANSAC

DeepLSD: Line Segment Detection and Refinement With Deep Image Gradients

Removing Objects From Neural Radiance Fields

VolRecon: Volume Rendering of Signed Ray Distance Functions for Generalizable Multi-View Reconstruction

OpenScene: 3D Scene Understanding With Open Vocabularies

3D Line Mapping Revisited

Four-View Geometry With Unknown Radial Distortion

Optimizing the Viewing Graph for Structure-From-Motion

Entropy Minimization for Convex Relaxation Approaches

Hyperpoints and Fine Vocabularies for Large-Scale Location Recognition

Merging the Unmatchable: Stitching Visually Disconnected SfM Models

Non-Parametric Structure-Based Calibration of Radially Symmetric Cameras

Camera Pose Voting for Large-Scale Image-Based Localization

Semantically Informed Multiview Surface Refinement

From Point Clouds to Mesh Using Regression

Revisiting Radial Distortion Absolute Pose

Privacy Preserving Image Queries for Camera Localization

Polarimetric Relative Pose Estimation

MBA-VO: Motion Blur Aware Visual Odometry

FMODetect: Robust Detection of Fast Moving Objects

Orthographic-Perspective Epipolar Geometry

H2O: Two Hands Manipulating Objects for First Person Interaction Recognition

Pixel-Perfect Structure-From-Motion With Featuremetric Refinement

Sat2Vid: Street-View Panoramic Video Synthesis From a Single Satellite Image

Cross-Descriptor Visual Localization and Mapping

Towards Efficient Graph Convolutional Networks for Point Cloud Handling

Learning Motion Priors for 4D Human Body Capture in 3D Scenes

Tracking by 3D Model Estimation of Unknown Objects in Videos

LightGlue: Local Feature Matching at Light Speed

RegFormer: An Efficient Projection-Aware Transformer Network for Large-Scale Point Cloud Registration

R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras

SGAligner: 3D Scene Alignment with Scene Graphs

Vanishing Point Estimation in Uncalibrated Images with Prior Gravity Direction

GlueStick: Robust Image Matching by Sticking Points and Lines Together

IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable Novel View Synthesis

RLSAC: Reinforcement Learning Enhanced Sample Consensus for End-to-End Robust Estimation

HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World

Privacy Preserving Localization via Coordinate Permutations

Guiding Local Feature Matching with Surface Curvature

Human from Blur: Human Pose Tracking from Blurry Images

Privacy Preserving Structure-from-Motion

Multi-View Optimization of Local Feature Geometry

Online Invariance Selection for Local Feature Descriptors

Convolutional Occupancy Networks

Calibration-free Structure-from-Motion with Calibrated Radial Trifocal Tensors

Handcrafted Outlier Detection Revisited

CompNVS: Novel View Synthesis with Scene Completion

EgoBody: Human Body Shape and Motion of Interacting People from Head-Mounted Devices

LaMAR: Benchmarking Localization and Mapping for Augmented Reality

NeFSAC: Neurally Filtered Minimal Samples

3D Instance Segmentation via Multi-Task Metric Learning

Relative Pose Estimation through Affine Corrections of Monocular Depth Priors

EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision

DepthSplat: Connecting Gaussian Splatting and Depth

Learning to Filter Outlier Edges in Global SfM

GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control

R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization

Structure-from-Motion with a Non-Parametric Camera Model

CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization

HouseTour: A Virtual Real Estate A(I)gent

Benchmarking Egocentric Visual-Inertial SLAM at City Scale

Planar Affine Rectification from Local Change of Scale and Orientation

SuperDec: 3D Scene Decomposition with Superquadrics Primitives

Single-Scanline Relative Pose Estimation for Rolling Shutter Cameras

Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations

SceneFun3D: Fine-Grained Functionality and Affordance Understanding in 3D Scenes

MuRF: Multi-Baseline Radiance Fields

SNI-SLAM: Semantic Neural Implicit SLAM

Efficient Solution of Point-Line Absolute Pose

Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning

Multiway Point Cloud Mosaicking with Diffusion and Global Optimization

Direction Matters: Depth Estimation With a Surface Normal Classifier

Segment Based 3D Object Shape Priors

Scalable Structure From Motion for Densely Sampled Videos

Discrete Optimization of Ray Potentials for Semantic 3D Reconstruction

TI-Pooling: Transformation-Invariant Pooling for Feature Learning in Convolutional Neural Networks

Large-Scale Location Recognition and the Geometric Burstiness Problem

Do It Yourself Hyperspectral Imaging With Everyday Digital Cameras

Reflection Separation using a Pair of Unpolarized and Polarized Images

Shape As Points: A Differentiable Poisson Solver

Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving Objects

SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic Understanding

The Drunkard’s Odometry: Estimating Camera Motion in Deforming Scenes

OpenMask3D: Open-Vocabulary 3D Instance Segmentation