Hang Zhao

39

Papers

68

Total Citations

Papers (39)

SEPT: Towards Efficient Scene Representation Learning for Motion Prediction

LONG3R: Long Sequence Streaming 3D Reconstruction

Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning

GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting

Scalability in Perception for Autonomous Driving: Waymo Open Dataset

Music Gesture for Visual Sound Separation

VectorNet: Encoding HD Maps and Agent Dynamics From Vectorized Representation

HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps

Embracing Single Stride 3D Object Detector With Sparse Transformer

Egocentric Prediction of Action Target in 3D

Co-Advise: Cross Inductive Bias Distillation

M2I: From Factored Marginal Trajectory Prediction to Interactive Prediction

GeoMAE: Masked Geometric Target Prediction for Self-Supervised Point Cloud Pre-Training

Neural Map Prior for Autonomous Driving

What Happened 3 Seconds Ago? Inferring the Past With Thermal Imaging

SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer

ViP3D: End-to-End Visual Trajectory Prediction via 3D Agent Queries

Open Vocabulary Scene Parsing

The Sound of Motions

Self-Supervised Moving Vehicle Tracking With Stereo Sound

HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization

Through-Wall Human Mesh Recovery Using Radio Signals

On Feature Decorrelation in Self-Supervised Learning

DenseTNT: End-to-End Trajectory Prediction From Dense Goal Sets

Large Scale Interactive Motion Forecasting for Autonomous Driving: The Waymo Open Motion Dataset

Multimodal Knowledge Expansion

PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework

INT2: Interactive Trajectory Prediction at Intersections

CYBORGS: Contrastively Bootstrapping Object Representations by Grounding in Segmentation

Learning Visual Styles from Audio-Visual Associations

Supervising Sound Localization by In-the-wild Egomotion

Deep Demonstration Tracing: Learning Generalizable Imitator Policy for Runtime Imitation from a Single Demonstration

Scene Parsing Through ADE20K Dataset

Through-Wall Human Pose Estimation Using Radio Signals

UnModNet: Learning to Unwrap a Modulo Image for High Dynamic Range Imaging

What Makes Multi-Modal Learning Better than Single (Provably)

Neural Dubber: Dubbing for Videos According to Scripts

Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models

Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving