Jan Kautz

27

Papers

2,030

Total Citations

Papers (27)

VILA: On Pre-training for Visual Language Models

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

A Variational Perspective on Solving Inverse Problems with Diffusion Models

Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?

Gated Delta Networks: Improving Mamba2 with Delta Rule

FoundationStereo: Zero-Shot Stereo Matching

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning

One-Minute Video Generation with Test-Time Training

Hymba: A Hybrid-head Architecture for Small Language Models

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

LLaMaFlex: Many-in-one LLMs via Generalized Pruning and Weight Sharing

HumanOLAT: A Large-Scale Dataset for Full-Body Human Relighting and Novel-View Synthesis

AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion

Parallel Sequence Modeling via Generalized Spatial Propagation Network

Flextron: Many-in-One Flexible Large Language Model

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

Scaling Vision Pre-Training to 4K Resolution

NVILA: Efficient Frontier Visual Language Models

RADIOv2.5: Improved Baselines for Agglomerative Vision Foundation Models

SimAvatar: Simulation-Ready Avatars with Layered Hair and Clothing

Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation

GENMO: A GENeralist Model for Human MOtion

GeoMan: Temporally Consistent Human Geometry Estimation using Image-to-Video Diffusion

COLMAP-Free 3D Gaussian Splatting

AM-RADIO: Agglomerative Vision Foundation Model Reduce All Domains Into One

MambaVision: A Hybrid Mamba-Transformer Vision Backbone