Caiming Xiong

50

Papers

1,561

Total Citations

Papers (50)

Learned in Translation: Contextualized Word Vectors

NeurIPS 2017arXiv

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

HIVE: Harnessing Human Feedback for Instructional Visual Editing

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

ViUniT: Visual Unit Tests for More Robust Visual Programming

Trust but Verify: Programmatic VLM Evaluation in the Wild

Can Humans Fly? Action Understanding With Multiple Classes of Actors

Recognizing Car Fluents From Video

Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning

End-to-End Dense Video Captioning With Masked Transformer

AdaFrame: Adaptive Frame Selection for Fast Video Recognition

The Regretful Agent: Heuristic-Aided Navigation Through Progress Estimation

Learning From Noisy Anchors for One-Stage Object Detection

WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos

Use All the Labels: A Hierarchical Multi-Label Contrastive Learning Framework

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding

StartNet: Online Detection of Action Start in Untrimmed Videos

Learning From Noisy Data With Robust Representation Learning

CoMatch: Semi-Supervised Learning With Contrastive Graph Regularization

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

Open Vocabulary Object Detection with Pseudo Bounding-Box Labels

Structured Scene Memory for Vision-Language Navigation

Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

Text2Data: Low-Resource Data Generation with Textual Control

Diffusion Model Alignment Using Direct Preference Optimization

Unified Training of Universal Time Series Forecasting Transformers

Position: TrustLLM: Trustworthiness in Large Language Models

Joint Action Recognition and Pose Estimation From Video

Keeping Your Distance: Solving Sparse Reward Tasks Using Self-Balancing Shaped Rewards

LiteEval: A Coarse-to-Fine Framework for Resource Efficient Video Recognition

Online Structured Meta-learning

Theory-Inspired Path-Regularized Differential Network Architecture Search

Towards Theoretically Understanding Why Sgd Generalizes Better Than Adam in Deep Learning

Towards Understanding Hierarchical Learning: Benefits of Neural Representations

A Theory-Driven Self-Labeling Refinement Method for Contrastive Representation Learning

Evaluating State-of-the-Art Classification Models Against Bayes Optimality

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

Understanding the Under-Coverage Bias in Uncertainty Estimation

Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning

Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization

Policy Optimization for Markov Games: Unified Framework and Faster Convergence

Preference-grounded Token-level Guidance for Language Model Fine-tuning

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection

Dynamic Memory Networks for Visual and Textual Question Answering

Learn to Grow: A Continual Structure Learning Framework for Overcoming Catastrophic Forgetting

Taming MAML: Efficient unbiased meta-reinforcement learning

On the Generalization Gap in Reparameterizable Reinforcement Learning