Tae-Hyun Oh

37

Papers

147

Total Citations

Papers (37)

Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering

Noise Map Guidance: Inversion with Spatial Context for Real Image Editing

BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

A Pseudo-Bayesian Algorithm for Robust PCA

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild

VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models

JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

SoundBrush: Sound as a Brush for Visual Scene Editing

VSC: Visual Search Compositional Text-to-Image Diffusion Model

Learning-based Axial Video Motion Magnification

Variational Prototyping-Encoder: One-Shot Learning With Prototypical Images

Listen to Look: Action Recognition by Previewing Audio

Monocular Reconstruction of Neural Face Reflectance Fields

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

Weakly- and Self-Supervised Learning for Content-Aware Deep Image Retargeting

Personalized Cinemagraphs Using Semantic Understanding and Collaborative Learning

Distilling Global and Local Logits With Densely Connected Relations

CDS: Cross-Domain Self-Supervised Pre-Training

Sound Source Localization is All about Cross-Modal Alignment

Scratching Visual Transformer's Back with Uniform Attention

TextManiA: Enriching Visual Feature by Text-driven Manifold Augmentation

Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers

CLIP-Actor: Text-Driven Recommendation and Stylization for Animating Human Meshes

HDR-Plenoxels: Self-Calibrating High Dynamic Range Radiance Fields

Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

Zero-shot Depth Completion via Test-time Alignment with Affine-invariant Depth Prior

FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D Neural Radiance Fields

Fast Randomized Singular Value Thresholding for Nuclear Norm Minimization

Globally Optimal Manhattan Frame Estimation in Real-Time

Video-Story Composition via Plot Analysis

Learning to Localize Sound Source in Visual Scenes

Globally Optimal Inlier Set Maximization for Atlanta Frame Estimation

Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning

Speech2Face: Learning the Face Behind a Voice

Neural Inverse Knitting: From Images to Manufacturing Instructions