Zhaoxiang Zhang

75

Papers

218

Total Citations

Papers (75)

OmniBench: Towards The Future of Universal Omni-Language Models

DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers

FreeVS: Generative View Synthesis on Free Driving Trajectory

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness

DexVLG: Dexterous Vision-Language-Grasp Model at Scale

Robust Depth Enhancement via Polarization Prompt Fusion Tuning

MemoNav: Working Memory Model for Visual Navigation

DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving

RCL: Reliable Continual Learning for Unified Failure Detection

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

FIRM: Flexible Interactive Reflection ReMoval

FlexDrive: Toward Trajectory Flexibility in Driving Scene Gaussian Splatting Reconstruction and Rendering

Point-supervised Panoptic Segmentation via Estimating Pseudo Labels from Learnable Distance

MCOP: Multi-UAV Collaborative Occupancy Prediction

Learning Integral Objects With Intra-Class Discriminator for Weakly-Supervised Semantic Segmentation

Context-Aware Attention Network for Image-Text Retrieval

Instance Guided Proposal Network for Person Search

Large-Scale Object Detection in the Wild From Imbalanced Multi-Labels

Bottom-Up Human Pose Estimation via Disentangled Keypoint Regression

Unsupervised Object Detection With LIDAR Clues

Look Closer To Segment Better: Boundary Patch Refinement for Instance Segmentation

RefineMask: Towards High-Quality Instance Segmentation With Fine-Grained Features

GAIA: A Transfer Learning System of Object Detection That Fits Your Needs

Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT Philosophy

Learnable Graph Matching: Incorporating Graph Partitioning With Deep Feature Learning for Multiple Object Tracking

DATA: Domain-Aware and Task-Aware Self-Supervised Learning

Sparse Instance Activation for Real-Time Instance Segmentation

Embracing Single Stride 3D Object Detector With Sparse Transformer

HP-Capsule: Unsupervised Face Part Discovery by Hierarchical Parsing Capsule Network

Implicit Sample Extension for Unsupervised Person Re-Identification

Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

Continual Stereo Matching of Continuous Driving Scenes With Growing Architecture

The Devil Is in the Details: Window-Based Attention for Image Compression

Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation

Graphics Capsule: Learning Hierarchical 3D Face Representations From 2D Images

Intrinsic Physical Concepts Discovery With Object-Centric Predictive Models

FrustumFormer: Adaptive Instance-Aware Resampling for Multi-View 3D Detection

BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision

Hard Patches Mining for Masked Image Modeling

Sharpness-Aware Gradient Matching for Domain Generalization

3D Video Object Detection With Learnable Object-Centric Global Optimization

BAEFormer: Bi-Directional and Early Interaction Transformers for Bird's Eye View Semantic Segmentation

Blind Video Deflickering by Neural Filtering With a Flawed Atlas

Spectral Feature Transformation for Person Re-Identification

Improving Pedestrian Attribute Recognition With Weakly-Supervised Multi-Scale Attribute-Specific Localization

Scale-Aware Trident Networks for Object Detection

Sequence Level Semantics Aggregation for Video Object Detection

POD: Practical Object Detection With Scale-Sensitive Network

Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR based 3D Object Detection

DDG-Net: Discriminability-Driven Graph Network for Weakly-supervised Temporal Action Localization

FPR: False Positive Rectification for Weakly Supervised Semantic Segmentation

LMR: A Large-Scale Multi-Reference Dataset for Reference-Based Super-Resolution

Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation

SSF: Accelerating Training of Spiking Neural Networks with Stabilized Spiking Flow

Generalizing Person Re-Identification by Camera-Aware Invariance Learning and Cross-Domain Mixup

Boosting Decision-based Black-box Adversarial Attacks with Random Sign Flip

Employing Multi-Estimations for Weakly-Supervised Semantic Segmentation

Densely Constrained Depth Estimator for Monocular 3D Object Detection

RRSR:Reciprocal Reference-Based Image Super-Resolution with Progressive Feature Alignment and Selection

Stereo Depth Estimation with Echoes

FreeSim: Toward Free-viewpoint Camera Simulation in Driving Scenes

Pointly-Supervised Panoptic Segmentation

End-to-End Driving with Online Trajectory Evaluation via BEV World Model

UIPro: Unleashing Superior Interaction Capability For GUI Agents

Images as Noisy Labels: Unleashing the Potential of the Diffusion Model for Open-Vocabulary Semantic Segmentation

LayerAnimate: Layer-level Control for Animation

SceneX: Procedural Controllable Large-Scale Scene Generation

Fully Data-Driven Pseudo Label Estimation for Pointly-Supervised Panoptic Segmentation

HardMo: A Large-Scale Hardcase Dataset for Motion Capture

Continual Forgetting for Pre-trained Vision Models

Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

Enhancing Visual Continual Learning with Language-Guided Supervision

PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation

GIFT: A Real-Time and Scalable 3D Shape Search Engine

Bi-Directional Interaction Network for Person Search