Zihan Wang

12

Papers

963

Total Citations

Papers (12)

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

Re-thinking Temporal Search for Long-Form Video Understanding

Implicit bias of SGD in $L_2$-regularized linear DNNs: One-way jumps from high to low rank

Reducing Tool Hallucination via Reliability Alignment

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks

Variational Regularized Unbalanced Optimal Transport: Single Network, Least Action

NeurIPS 2025arXiv

Modeling Cell Dynamics and Interactions with Unbalanced Mean Field Schrödinger Bridge

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Auxiliary Prompt Tuning of Vision-Language Models for Few-Shot Out-of-Distribution Detection

Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation

Multi-scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units Recognition

CogAgent: A Visual Language Model for GUI Agents