Hao Li

48

Papers

446

Total Citations

Papers (48)

The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World

GoT: Unleashing Reasoning Capability of MLLM for Visual Generation and Editing

SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

Token-Level Contrastive Learning with Modality-Aware Prompting for Multimodal Intent Recognition

Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction

VOODOO 3D: Volumetric Portrait Disentanglement For One-Shot 3D Head Reenactment

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation

GRPose: Learning Graph Relations for Human Image Generation with Pose Priors

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation

VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence

DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation

Pioneer: Physics-informed Riemannian Graph ODE for Entropy-increasing Dynamics

GIFStream: 4D Gaussian-based Immersive Video with Feature Stream

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding

LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

Wav2Sem: Plug-and-Play Audio Semantic Decoupling for 3D Speech-Driven Facial Animation

Political Actor Agent: Simulating Legislative System for Roll Call Votes Prediction with Large Language Models

STRIDER: Navigation via Instruction-Aligned Structural Decision Space Optimization

NeurIPS 2025arXiv

TMetaNet: Topological Meta-Learning Framework for Dynamic Link Prediction

RoboMP$^2$: A Robotic Multimodal Perception-Planning Framework with Multimodal Large Language Models

Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World

PointMC: Multi-instance Point Cloud Registration based on Maximal Cliques

DiffPortrait360: Consistent Portrait Diffusion for 360 View Synthesis

CCIN: Compositional Conflict Identification and Neutralization for Composed Image Retrieval

Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation

FuXi-RTM: A Physics-Guided Prediction Framework with Radiative Transfer Modeling

FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration

LangBridge: Interpreting Image as a Combination of Language Embeddings

CityGS-X: A Scalable Architecture for Efficient and Geometrically Accurate Large-Scale Scene Reconstruction

Cross-Category Subjectivity Generalization for Style-Adaptive Sketch Re-ID

QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation

AU-Blendshape for Fine-grained Stylized 3D Facial Expression Manipulation

Deconfound Semantic Shift and Incompleteness in Incremental Few-shot Semantic Segmentation

MUCD: Unsupervised Point Cloud Change Detection via Masked Consistency

HieraFashDiff: Hierarchical Fashion Design with Multi-stage Diffusion Models

Partial Point Cloud Registration with Multi-view 2D Image Learning

AdvDisplay: Adversarial Display Assembled by Thermoelectric Cooler for Fooling Thermal Infrared Detectors

Gradual Residuals Alignment: A Dual-Stream Framework for GAN Inversion and Image Attribute Editing

Robustly Train Normalizing Flows via KL Divergence Regularization

Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft

On the Scalability of Diffusion-based Text-to-Image Generation

NeRFCodec: Neural Feature Compression Meets Neural Radiance Fields for Memory-Efficient Scene Representation

LTGC: Long-tail Recognition via Leveraging LLMs-driven Generated Content

Diffusion-based Blind Text Image Super-Resolution