Zihan Wang

17

Papers

963

Total Citations

Papers (17)

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

Re-thinking Temporal Search for Long-Form Video Understanding

Implicit bias of SGD in $L_2$-regularized linear DNNs: One-way jumps from high to low rank

Reducing Tool Hallucination via Reliability Alignment

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks

Modeling Cell Dynamics and Interactions with Unbalanced Mean Field Schrödinger Bridge

Variational Regularized Unbalanced Optimal Transport: Single Network, Least Action

NeurIPS 2025arXiv

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Auxiliary Prompt Tuning of Vision-Language Models for Few-Shot Out-of-Distribution Detection

Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation

Multi-scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units Recognition

CogAgent: A Visual Language Model for GUI Agents

KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

GridMM: Grid Memory Map for Vision-and-Language Navigation

M$^4$I: Multi-modal Models Membership Inference

Breadcrumbs to the Goal: Goal-Conditioned Exploration from Human-in-the-Loop Feedback