Alan Yuille

Papers

150

Total Citations

Papers (65)

Regional Homogeneity: Towards Learning Transferable Universal Adversarial Perturbations Against Defenses

ECCV 2020

citations

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

ICCV 2025arXiv

citations

RadGPT: Constructing 3D Image-Text Tumor Datasets

ICCV 2025

citations

Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction

ICCV 2025arXiv

citations

HISR: Hybrid Implicit Surface Representation for Photorealistic 3D Human Reconstruction

AAAI 2024arXiv

citations

VIP-DeepLab: Learning Visual Perception With Depth-Aware Video Panoptic Segmentation

CVPR 2021

citations

CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

CVPR 2021arXiv

citations

Progressive Stage-Wise Learning for Unsupervised Feature Representation Enhancement

CVPR 2021arXiv

citations

DetectoRS: Detecting Objects With Recursive Feature Pyramid and Switchable Atrous Convolution

CVPR 2021arXiv

citations

Robust Instance Segmentation Through Reasoning About Multi-Object Occlusion

CVPR 2021arXiv

citations

Deeply Shape-Guided Cascade for Instance Segmentation

CVPR 2021arXiv

citations

MaX-DeepLab: End-to-End Panoptic Segmentation With Mask Transformers

CVPR 2021

citations

Weakly Supervised Instance Segmentation for Videos With Temporal Mask Consistency

CVPR 2021arXiv

citations

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering

CVPR 2022arXiv

citations

Amodal Segmentation Through Out-of-Task and Out-of-Distribution Generalization With a Bayesian Model

CVPR 2022arXiv

citations

Learning From Temporal Gradient for Semi-Supervised Action Recognition

CVPR 2022arXiv

citations

Masked Feature Prediction for Self-Supervised Visual Pre-Training

CVPR 2022arXiv

citations

A Simple Data Mixing Prior for Improving Self-Supervised Learning

CVPR 2022

citations

CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation

CVPR 2022

citations

Learning Part Segmentation Through Unsupervised Domain Adaptation From Synthetic Vehicles

CVPR 2022arXiv

citations

Point-Level Region Contrast for Object Detection Pre-Training

CVPR 2022arXiv

citations

Simulated Adversarial Testing of Face Recognition Models

CVPR 2022arXiv

citations

Lite Vision Transformer With Enhanced Self-Attention

CVPR 2022arXiv

citations

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

CVPR 2022arXiv

citations

TransMix: Attend To Mix for Vision Transformers

CVPR 2022arXiv

citations

Recurrent Multimodal Interaction for Referring Image Segmentation

ICCV 2017arXiv

citations

SORT: Second-Order Response Transform for Visual Recognition

ICCV 2017arXiv

citations

Adversarial Examples for Semantic Segmentation and Object Detection

ICCV 2017arXiv

citations

Genetic CNN

ICCV 2017arXiv

citations

ScaleNet: Guiding Object Proposal Generation in Supermarkets and Beyond

ICCV 2017arXiv

citations

Multi-Stage Multi-Recursive-Input Fully Convolutional Networks for Neuronal Boundary Detection

ICCV 2017arXiv

citations

Exploring Simple 3D Multi-Object Tracking for Autonomous Driving

ICCV 2021arXiv

citations

Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images

ICCV 2021

citations

A-SDF: Learning Disentangled Signed Distance Functions for Articulated Shape Representation

ICCV 2021

citations

3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose Estimation

ICCV 2023arXiv

citations

CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection

ICCV 2023arXiv

citations

Animal3D: A Comprehensive Dataset of 3D Animal Pose and Shape

ICCV 2023arXiv

citations

Diffusion Models as Masked Autoencoders

ICCV 2023arXiv

citations

CancerUniT: Towards a Single Unified Model for Effective Detection, Segmentation, and Diagnosis of Eight Major Cancers Using a Large Collection of CT Scans

ICCV 2023

citations

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-Training

ICCV 2023arXiv

citations

Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation

ECCV 2020

citations

JSSR: A Joint Synthesis, Segmentation, and Registration System for 3D Multi-Modal Image Alignment of Large-scale Pathological CT Scans

ECCV 2020

citations

Object as Hotspots: An Anchor-Free 3D Object Detection Approach via Firing of Hotspots

ECCV 2020

citations

PatchAttack: A Black-box Texture-based Attack with Reinforcement Learning

ECCV 2020

citations

Explicit Occlusion Reasoning for Multi-Person 3D Human Pose Estimation

ECCV 2022

citations

"PartImageNet: A Large, High-Quality Dataset of Parts"

ECCV 2022

citations

OOD-CV: A Benchmark for Robustness to Out-of-Distribution Shifts of Individual Nuisances in Natural Images

ECCV 2022

citations

Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering of Neural Features

ECCV 2022

citations

In Defense of Image Pre-training for Spatiotemporal Recognition

ECCV 2022

citations

In Defense of Online Models for Video Instance Segmentation

ECCV 2022

citations

k-Means Mask Transformer

ECCV 2022

citations

CP2: Copy-Paste Contrastive Pretraining for Semantic Segmentation

ECCV 2022

citations

Coarse-to-Fine Incremental Few-Shot Learning

ECCV 2022

citations

Context-Enhanced Stereo Transformer

ECCV 2022

citations

Are Labels Necessary for Neural Architecture Search?

ECCV 2020

citations

Scaling 3D Compositional Models for Robust Classification and Pose Estimation

ICCV 2025

citations

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

ICCV 2025

citations

Medical World Model

ICCV 2025

citations

Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data

ICCV 2025

citations

Learning Deep Structured Models

ICML 2015

citations

Gradually Updated Neural Networks for Large-Scale Image Recognition

ICML 2018

citations

Alan Yuille

Papers (65)

Regional Homogeneity: Towards Learning Transferable Universal Adversarial Perturbations Against Defenses

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

RadGPT: Constructing 3D Image-Text Tumor Datasets

Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction

HISR: Hybrid Implicit Surface Representation for Photorealistic 3D Human Reconstruction

VideoAuteur: Towards Long Narrative Video Generation

Rejuvenating image-GPT as Strong Visual Representation Learners

Mask Guided Matting via Progressive Refinement Network

Self-Supervised Pillar Motion Learning for Autonomous Driving

VIP-DeepLab: Learning Visual Perception With Depth-Aware Video Panoptic Segmentation

CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning

Progressive Stage-Wise Learning for Unsupervised Feature Representation Enhancement

DetectoRS: Detecting Objects With Recursive Feature Pyramid and Switchable Atrous Convolution

Robust Instance Segmentation Through Reasoning About Multi-Object Occlusion

Deeply Shape-Guided Cascade for Instance Segmentation

MaX-DeepLab: End-to-End Panoptic Segmentation With Mask Transformers

Weakly Supervised Instance Segmentation for Videos With Temporal Mask Consistency

SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering

Amodal Segmentation Through Out-of-Task and Out-of-Distribution Generalization With a Bayesian Model

Learning From Temporal Gradient for Semi-Supervised Action Recognition

Masked Feature Prediction for Self-Supervised Visual Pre-Training

A Simple Data Mixing Prior for Improving Self-Supervised Learning

CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation

Learning Part Segmentation Through Unsupervised Domain Adaptation From Synthetic Vehicles

Point-Level Region Contrast for Object Detection Pre-Training

Simulated Adversarial Testing of Face Recognition Models

Lite Vision Transformer With Enhanced Self-Attention

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

TransMix: Attend To Mix for Vision Transformers

Recurrent Multimodal Interaction for Referring Image Segmentation

SORT: Second-Order Response Transform for Visual Recognition

Adversarial Examples for Semantic Segmentation and Object Detection

Genetic CNN

ScaleNet: Guiding Object Proposal Generation in Supermarkets and Beyond

Multi-Stage Multi-Recursive-Input Fully Convolutional Networks for Neuronal Boundary Detection

Exploring Simple 3D Multi-Object Tracking for Autonomous Driving

Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images

A-SDF: Learning Disentangled Signed Distance Functions for Articulated Shape Representation

3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose Estimation

CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection

Animal3D: A Comprehensive Dataset of 3D Animal Pose and Shape

Diffusion Models as Masked Autoencoders

CancerUniT: Towards a Single Unified Model for Effective Detection, Segmentation, and Diagnosis of Eight Major Cancers Using a Large Collection of CT Scans

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-Training

Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation

JSSR: A Joint Synthesis, Segmentation, and Registration System for 3D Multi-Modal Image Alignment of Large-scale Pathological CT Scans

Object as Hotspots: An Anchor-Free 3D Object Detection Approach via Firing of Hotspots

PatchAttack: A Black-box Texture-based Attack with Reinforcement Learning

Explicit Occlusion Reasoning for Multi-Person 3D Human Pose Estimation

"PartImageNet: A Large, High-Quality Dataset of Parts"

OOD-CV: A Benchmark for Robustness to Out-of-Distribution Shifts of Individual Nuisances in Natural Images

Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering of Neural Features

In Defense of Image Pre-training for Spatiotemporal Recognition

In Defense of Online Models for Video Instance Segmentation

k-Means Mask Transformer

CP2: Copy-Paste Contrastive Pretraining for Semantic Segmentation

Coarse-to-Fine Incremental Few-Shot Learning

Context-Enhanced Stereo Transformer

Are Labels Necessary for Neural Architecture Search?

Scaling 3D Compositional Models for Robust Classification and Pose Estimation

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

Medical World Model

Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data

Learning Deep Structured Models

Gradually Updated Neural Networks for Large-Scale Image Recognition