Hao Fei

21

Papers

149

Total Citations

Papers (21)

Towards Semantic Equivalence of Tokenization in Multimodal LLM

CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models

CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs

Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought

Multi-Granular Multimodal Clue Fusion for Meme Understanding

Where, What, Why: Towards Explainable Driver Attention Prediction

PhysSplat: Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence

Divide-Solve-Combine: An Interpretable and Accurate Prompting Framework for Zero-shot Multi-Intent Detection

Universal Scene Graph Generation

Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning

Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining

Harnessing Holistic Discourse Features and Triadic Interaction for Sentiment Quadruple Extraction in Dialogues

Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology

Improving Expressive Power of Spectral Graph Neural Networks with Eigenvalue Correction

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding Reasoning and Planning

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

NExT-GPT: Any-to-Any Multimodal LLM

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning