Alexander G. Schwing

47

Papers

322

Total Citations

Papers (47)

Putting the Object Back into Video Object Segmentation

MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds

GoMAvatar: Efficient Animatable Human Modeling from Monocular Video Using Gaussians-on-Mesh

LIFe-GoM: Generalizable Human Rendering with Learned Iterative Feedback Over Multi-Resolution Gaussians-on-Mesh

Learning to Segment Under Various Forms of Weak Supervision

Efficient Deep Learning for Stereo Matching

Semantic Image Inpainting With Deep Generative Models

Creativity: Generating Diverse Questions Using Variational Autoencoders

Generative Modeling Using the Sliced Wasserstein Distance

Convolutional Image Captioning

Two Can Play This Game: Visual Dialog With Discriminative Question Generation and Answering

Unsupervised Textual Grounding: Linking Words to Image Concepts

Factor Graph Attention

SAIL-VOS: Semantic Amodal Instance Level Video Object Segmentation - A Synthetic Dataset and Baselines

Diverse Generation for Multi-Agent Sports Games

Two Body Problem: Collaborative Visual Task Completion

Max-Sliced Wasserstein Distance and Its Use for GANs

Fast, Diverse and Accurate Image Captioning Guided by Part-Of-Speech

A Simple Baseline for Audio-Visual Scene-Aware Dialog

Agriculture-Vision: A Large Aerial Image Database for Agricultural Pattern Analysis

Dynamic Neural Relational Inference

Can We Learn Heuristics for Graphical Model Inference Using Reinforcement Learning?

Instance-Aware, Context-Focused, and Memory-Efficient Weakly Supervised Object Detection

Panoptic Segmentation Forecasting

SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction From Video Data

3D Spatial Recognition Without Spatially Labeled 3D

Total Variation Optimization Layers for Computer Vision

Joint Forecasting of Panoptic Segmentations With Difference Attention

Masked-Attention Mask Transformer for Universal Image Segmentation

Neural Volumetric Object Selection

SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation

Context-Aware Relative Object Queries To Unify Video Instance and Panoptic Segmentation

AutoFocusFormer: Image Segmentation off the Grid

Monocular Object Instance Segmentation and Depth Ordering With CNNs

Assignment-Space-Based Multi-Object Tracking and Segmentation

The Surprising Effectiveness of Visual Odometry Techniques for Embodied PointGoal Navigation

Interpretation of Emergent Communication in Heterogeneous Collaborative Embodied Agents

GridToPix: Training Embodied Agents With Minimal Supervision

UFO²: A Unified Framework towards Omni-supervised Object Detection

Proposal-based Video Completion

Generative Multiplane Images: Making a 2D GAN 3D-Aware

Initialization and Alignment for Adversarial Texture Optimization

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model

RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations

NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows

Rent3D: Floor-Plan Priors for Monocular Layout Estimation