Zhaoxiang Zhang

26

Papers

218

Total Citations

Papers (26)

OmniBench: Towards The Future of Universal Omni-Language Models

DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers

FreeVS: Generative View Synthesis on Free Driving Trajectory

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness

DexVLG: Dexterous Vision-Language-Grasp Model at Scale

Robust Depth Enhancement via Polarization Prompt Fusion Tuning

MemoNav: Working Memory Model for Visual Navigation

RCL: Reliable Continual Learning for Unified Failure Detection

DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

FIRM: Flexible Interactive Reflection ReMoval

Point-supervised Panoptic Segmentation via Estimating Pseudo Labels from Learnable Distance

FlexDrive: Toward Trajectory Flexibility in Driving Scene Gaussian Splatting Reconstruction and Rendering

MCOP: Multi-UAV Collaborative Occupancy Prediction

PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation

End-to-End Driving with Online Trajectory Evaluation via BEV World Model

UIPro: Unleashing Superior Interaction Capability For GUI Agents

Images as Noisy Labels: Unleashing the Potential of the Diffusion Model for Open-Vocabulary Semantic Segmentation

LayerAnimate: Layer-level Control for Animation

SceneX: Procedural Controllable Large-Scale Scene Generation

Fully Data-Driven Pseudo Label Estimation for Pointly-Supervised Panoptic Segmentation

HardMo: A Large-Scale Hardcase Dataset for Motion Capture

Continual Forgetting for Pre-trained Vision Models

Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

Enhancing Visual Continual Learning with Language-Guided Supervision

FreeSim: Toward Free-viewpoint Camera Simulation in Driving Scenes