Hao Jiang

35

Papers

154

Total Citations

Papers (35)

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical Refinement and EM Optimization

The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective

Towards Universal Soccer Video Understanding

PatchDPO: Patch-level DPO for Finetuning-free Personalized Image Generation

All-in-One: Transferring Vision Foundation Models into Stereo Matching

Reward Penalties on Augmented States for Solving Richly Constrained RL Effectively

Political Actor Agent: Simulating Legislative System for Roll Call Votes Prediction with Large Language Models

CursorCore: Assist Programming through Aligning Anything

TMetaNet: Topological Meta-Learning Framework for Dynamic Link Prediction

D^2-DPM: Dual Denoising for Quantized Diffusion Probabilistic Models

Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback

VERSE: Verification-based Self-Play for Code Instructions

Transferable Video Moment Localization by Moment-Guided Query Prompting

MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis

Ink Dot-Oriented Differentiable Optimization for Neural Image Halftoning

Granularity-Adaptive Spatial Evidence Tokenization for Video Question Answering

Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation

Boosting MLLM Reasoning with Text-Debiased Hint-GRPO

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Matching Bags of Regions in RGBD images

Seeing Invisible Poses: Estimating 3D Body Pose From Egocentric Video

Detangling People: Individuating Multiple Close People and Their Body Parts via Region Assembly

Action4D: Online Action Recognition in the Crowd and Clutter

Joint Video Summarization and Moment Localization by Cross-Task Sample Transfer

Ego4D: Around the World in 3,000 Hours of Egocentric Video

Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization

Chat2Map: Efficient Scene Mapping From Multi-Ego Conversations

DoNet: Deep De-Overlapping Network for Cytology Instance Segmentation

DATE: Domain Adaptive Product Seeker for E-Commerce

Egocentric Auditory Attention Localization in Conversations

Egocentric Pose Estimation From Human Vision Span

Conditional Diffusion Process for Inverse Halftoning

BMU-MoCo: Bidirectional Momentum Update for Continual Video-Language Modeling

FairLISA: Fair User Modeling with Limited Sensitive Attributes Information