De-An Huang

23

Papers

519

Total Citations

Papers (23)

Eureka: Human-Level Reward Design via Coding Large Language Models

PerAda: Parameter-Efficient Federated Learning Personalization with Generalization Guarantees

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Unsupervised Learning of Long-Term Motion Dynamics for Videos

Finding "It": Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos

What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets

D3TW: Discriminative Differentiable Dynamic Time Warping for Weakly Supervised Action Alignment and Segmentation

Neural Task Graphs: Generalizing to Unseen Tasks From a Single Video Demonstration

Spatio-Temporal Graph for Video Captioning With Knowledge Distillation

Visual Forecasting by Imitating Dynamics in Natural Sequences

Imitation Learning for Human Pose Prediction

Procedure Planning in Instructional Videos

NVILA: Efficient Frontier Visual Language Models

How Do We Use Our Hands? Discovering a Diverse Set of Common Grasps

Forecasting Interactive Dynamics of Pedestrians With Fictitious Play

Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos

Learning to Decompose and Disentangle Representations for Video Prediction

Regression Planning Networks

Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge

Pre-Trained Language Models for Interactive Decision-Making

MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training