Rising Stars in Research

WorldSimBench: Towards Video Generation Models as World Simulators

806 citations

From Crowdsourced Data to High-quality Benchmarks: Arena-Hard and Benchbuilder Pipeline

329 citations

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

190 citations

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

165 citations

Training Software Engineering Agents and Verifiers with SWE-Gym

130 citations

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

123 citations

Layer by Layer: Uncovering Hidden Representations in Language Models

118 citations

Imagine While Reasoning in Space: Multimodal Visualization-of-Thought

115 citations

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

110 citations

Taming Rectified Flow for Inversion and Editing

110 citations

A General Framework for Inference-time Scaling and Steering of Diffusion Models

103 citations

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

103 citations

AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders

100 citations

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

98 citations

OR-Bench: An Over-Refusal Benchmark for Large Language Models

97 citations

Theoretical guarantees on the best-of-n alignment policy

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

88 citations

Learning Smooth and Expressive Interatomic Potentials for Physical Property Prediction

87 citations

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

72 citations

Scaling Test-Time Compute Without Verification or RL is Suboptimal

68 citations

Cradle: Empowering Foundation Agents towards General Computer Control

67 citations

History-Guided Video Diffusion

66 citations

GuardAgent: Safeguard LLM Agents via Knowledge-Enabled Reasoning

66 citations

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

64 citations

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

63 citations

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

63 citations

ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference

RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents against Human Experts

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

55 citations

Sundial: A Family of Highly Capable Time Series Foundation Models

55 citations

NeurIPS 2025

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

1,227 citations

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

242 citations

Video-R1: Reinforcing Video Reasoning in MLLMs

236 citations

Why Do Multi-Agent LLM Systems Fail?

188 citations

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

169 citations

Training Language Models to Reason Efficiently

155 citations

ToolRL: Reward is All Tool Learning Needs

152 citations

Mean Flows for One-step Generative Modeling

143 citations

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

134 citations

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

130 citations

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

118 citations

TTRL: Test-Time Reinforcement Learning

118 citations

Improving Video Generation with Human Feedback

106 citations

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

95 citations

Show-o2: Improved Native Unified Multimodal Models

90 citations

Remarkable Robustness of LLMs: Stages of Inference?

WebDancer: Towards Autonomous Information Seeking Agency

81 citations

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

81 citations

OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation

78 citations

LMFusion: Adapting Pretrained Language Models for Multimodal Generation

77 citations

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

74 citations

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

74 citations

General-Reasoner: Advancing LLM Reasoning Across All Domains

74 citations

Offline Actor-Critic for Average Reward MDPs

73 citations

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

70 citations

Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

69 citations

Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

67 citations

SWE-smith: Scaling Data for Software Engineering Agents

64 citations

ICCV 2025

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

338 citations

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

247 citations

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

211 citations

LVBench: An Extreme Long Video Understanding Benchmark

208 citations

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

206 citations

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

127 citations

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Decoupled Video Diffusion

103 citations

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

86 citations

Stable Virtual Camera: Generative View Synthesis with Diffusion Models

78 citations

REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers

73 citations

MV-Adapter: Multi-View Consistent Image Generation Made Easy

69 citations

EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

69 citations

MeshAnything V2: Artist-Created Mesh Generation with Adjacent Mesh Tokenization

66 citations

GameFactory: Creating New Games with Generative Interactive Videos

63 citations

ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

62 citations

DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving

58 citations

Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

Long Context Tuning for Video Generation

EvaGaussians: Event Stream Assisted Gaussian Splatting from Blurry Images

53 citations

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

52 citations

Describe Anything: Detailed Localized Image and Video Captioning

49 citations

Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation

49 citations

Aether: Geometric-Aware Unified World Modeling

47 citations

DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers

44 citations

MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control

44 citations

UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization

43 citations

ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

43 citations

CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy

42 citations

Scaling Language-Free Visual Representation Learning

39 citations

CVPR 2025

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

858 citations

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

342 citations

OmniGen: Unified Image Generation

253 citations

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

203 citations

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

159 citations

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

154 citations

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

142 citations

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

138 citations

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

123 citations

WonderWorld: Interactive 3D Scene Generation from a Single Image

120 citations

From Slow Bidirectional to Fast Autoregressive Video Diffusion Models

119 citations

FoundationStereo: Zero-Shot Stereo Matching

98 citations

Transformers without Normalization

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

DEIM: DETR with Improved Matching for Fast Convergence

93 citations

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

92 citations

MLVU: Benchmarking Multi-task Long Video Understanding

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

83 citations

Teaching Large Language Models to Regress Accurate Image Quality Scores Using Score Distribution

81 citations

MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds

80 citations

AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

78 citations

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

70 citations

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

70 citations

Adaptive Keyframe Sampling for Long Video Understanding

68 citations

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

68 citations

One-Minute Video Generation with Test-Time Training

65 citations

SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

62 citations

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

61 citations

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

59 citations

ICLR 2025