Fei Xia

7

Papers

723

Total Citations

Papers (7)

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Video Language Planning

DriveGPT4-V2: Harnessing Large Language Model Capabilities for Enhanced Closed-Loop Autonomous Driving

Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks

MicroDiffusion: Implicit Representation-Guided Diffusion for 3D Reconstruction from Limited 2D Microscopy Projections

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs