Yi Hu

4

Papers

29

Total Citations

Papers (4)

PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

NeurIPS 2025arXiv

Beyond Single-Task: Robust Multi-Task Length Generalization for LLMs

T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering

Case-Based or Rule-Based: How Do Transformers Do the Math?