Qi Wu

25

Papers

500

Total Citations

1

Affiliations

Affiliations

Carnegie Mellon University

Papers (25)

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

Context-I2W: Mapping Images to Context-Dependent Words for Accurate Zero-Shot Composed Image Retrieval

3DGUT: Enabling Distorted Cameras and Secondary Rays in Gaussian Splatting

Continual Self-supervised Learning: Towards Universal Multi-modal Medical Data Representation Learning

Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

WebVLN: Vision-and-Language Navigation on Websites

PairAug: What Can Augmented Image-Text Pairs Do for Radiology?

General Scene Adaptation for Vision-and-Language Navigation

Invariant Random Forest: Tree-Based Model Solution for OOD Generalization

Augmented Commonsense Knowledge for Remote Object Grounding

The Causal Impact of Credit Lines on Spending Distributions

Sparse Bayesian Deep Learning for Cross Domain Medical Image Reconstruction

KPA-Tracker: Towards Robust and Real-Time Category-Level Articulated Object 6D Pose Tracking

G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images

Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for Enhanced Human Pose Estimation with Sparse Inertial Sensors

Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework

ModaVerse: Efficiently Transforming Modalities with LLMs

Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval

Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval

EnvPoser: Environment-aware Realistic Human Motion Estimation from Sparse Observations with Uncertainty Modeling

SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

MFL-Owner: Ownership Protection for Multi-modal Federated Learning via Orthogonal Transform Watermark

Realistic Noise Synthesis with Diffusion Models

Distributionally Robust Policy Evaluation and Learning for Continuous Treatment with Observational Data