Yu Shen

20

Papers

270

Total Citations

Papers (20)

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

NeurIPS 2025arXiv

What Makes a Good Diffusion Planner for Decision Making?

Framer: Interactive Frame Interpolation

How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension

SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Model

VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model

Refine Knowledge of Large Language Models via Adaptive Contrastive Learning

KVFlow: Efficient Prefix Caching for Accelerating LLM-Based Multi-Agent Workflows

NeurIPS 2025arXiv

SysBench: Can LLMs Follow System Message?

Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions

API Pack: A Massive Multi-Programming Language Dataset for API Call Generation

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

NeurIPS 2025arXiv

Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs

NeurIPS 2025arXiv

FairViT: Fair Vision Transformer via Adaptive Masking

CausalVerse: Benchmarking Causal Representation Learning with Configurable High-Fidelity Simulations

NeurIPS 2025arXiv

GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

NeurIPS 2025arXiv

UniRestore3D: A Scalable Framework For General Shape Restoration

GAN-based Garment Generation Using Sewing Pattern Images

Gradient-Free Adversarial Training Against Image Corruption for Learning-based Steering

DivBO: Diversity-aware CASH for Ensemble Learning

NeurIPS 2022arXiv