Ziyu Guo

10

Papers

204

Total Citations

Papers (10)

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos

NeurIPS 2025arXiv

No Time to Train: Empowering Non-Parametric Networks for Few-shot 3D Scene Segmentation

StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion

MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding

Let's Verify and Reinforce Image Generation Step by Step

Less is More: Improving Motion Diffusion Models with Sparse Keyframes

EchoTraffic: Enhancing Traffic Anomaly Understanding with Audio-Visual Insights

LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding