Rising Stars in Research

Track citation trends and discover the most impactful papers in AI/ML research

Cut Through the Noise

Find papers actually getting cited, not just published

Spot Emerging Trends

Track citation velocity to find rising research early

Topic Lifecycle Analysis

See research areas rising, peaking, or declining

Browse by Conference

CVPR, NeurIPS, ICLR, ICML, ECCV, ICCV

ICLRICMLNeurIPSCVPR

Browse by Topic

Diffusion, Transformers, 3D Vision, LLMs

large language modelsdiffusion modelsvision-language modelsattention mechanism

Browse by Author

Top researchers ranked by citations

View top 100 by citation count

📋 Rankings (Countries, Institutions)📚 Browse All Papers

🏅

2025 Conference Highlights

Latest

ICML 2025

Top 30

WorldSimBench: Towards Video Generation Models as World Simulators

806 citations

From Crowdsourced Data to High-quality Benchmarks: Arena-Hard and Benchbuilder Pipeline

329 citations

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

190 citations

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

165 citations

Training Software Engineering Agents and Verifiers with SWE-Gym

130 citations

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

123 citations

Layer by Layer: Uncovering Hidden Representations in Language Models

118 citations

Imagine While Reasoning in Space: Multimodal Visualization-of-Thought

115 citations

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

110 citations

Taming Rectified Flow for Inversion and Editing

110 citations

A General Framework for Inference-time Scaling and Steering of Diffusion Models

103 citations

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

103 citations

AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders

100 citations

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

98 citations

OR-Bench: An Over-Refusal Benchmark for Large Language Models

97 citations

Theoretical guarantees on the best-of-n alignment policy

89 citations

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

88 citations

Learning Smooth and Expressive Interatomic Potentials for Physical Property Prediction

87 citations

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

72 citations

Scaling Test-Time Compute Without Verification or RL is Suboptimal

68 citations

Cradle: Empowering Foundation Agents towards General Computer Control

67 citations

History-Guided Video Diffusion

66 citations

GuardAgent: Safeguard LLM Agents via Knowledge-Enabled Reasoning

66 citations

SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

64 citations

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

63 citations

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

63 citations

ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference

56 citations

RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents against Human Experts

56 citations

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

55 citations

Sundial: A Family of Highly Capable Time Series Foundation Models

55 citations

NeurIPS 2025

Top 30

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

1,227 citations

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

242 citations

Video-R1: Reinforcing Video Reasoning in MLLMs

236 citations

Why Do Multi-Agent LLM Systems Fail?

188 citations

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

169 citations

Training Language Models to Reason Efficiently

155 citations

ToolRL: Reward is All Tool Learning Needs

152 citations

Mean Flows for One-step Generative Modeling

143 citations

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

134 citations

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

130 citations

TTRL: Test-Time Reinforcement Learning

118 citations

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

118 citations

Improving Video Generation with Human Feedback

106 citations

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

96 citations

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

95 citations

Show-o2: Improved Native Unified Multimodal Models

90 citations

Remarkable Robustness of LLMs: Stages of Inference?

87 citations

WebDancer: Towards Autonomous Information Seeking Agency

81 citations

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

81 citations

OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation

78 citations

LMFusion: Adapting Pretrained Language Models for Multimodal Generation

77 citations

Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models

74 citations

General-Reasoner: Advancing LLM Reasoning Across All Domains

74 citations

Offline Actor-Critic for Average Reward MDPs

73 citations

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

70 citations

Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension

69 citations

Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

67 citations

SWE-smith: Scaling Data for Software Engineering Agents

64 citations

dKV-Cache: The Cache for Diffusion Language Models

64 citations

UMA: A Family of Universal Models for Atoms

62 citations

ICCV 2025

Top 30

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

338 citations

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

247 citations

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

211 citations

LVBench: An Extreme Long Video Understanding Benchmark

208 citations

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

206 citations

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

127 citations

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Decoupled Video Diffusion

103 citations

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

96 citations

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

86 citations

Stable Virtual Camera: Generative View Synthesis with Diffusion Models

78 citations

REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers

73 citations

MV-Adapter: Multi-View Consistent Image Generation Made Easy

69 citations

EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

69 citations

MeshAnything V2: Artist-Created Mesh Generation with Adjacent Mesh Tokenization

66 citations

GameFactory: Creating New Games with Generative Interactive Videos

63 citations

ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

62 citations

DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving

58 citations

Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

56 citations

Long Context Tuning for Video Generation

56 citations

EvaGaussians: Event Stream Assisted Gaussian Splatting from Blurry Images

53 citations

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

52 citations

Describe Anything: Detailed Localized Image and Video Captioning

49 citations

Aether: Geometric-Aware Unified World Modeling

47 citations

DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers

44 citations

MagicDrive-V2: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control

44 citations

UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization

43 citations

ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

43 citations

Scaling Language-Free Visual Representation Learning

39 citations

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis

38 citations

GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting

37 citations

CVPR 2025

Top 30

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

858 citations

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

342 citations

OmniGen: Unified Image Generation

253 citations

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

203 citations

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

159 citations

StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

154 citations

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

142 citations

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

138 citations

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

123 citations

WonderWorld: Interactive 3D Scene Generation from a Single Image

120 citations

From Slow Bidirectional to Fast Autoregressive Video Diffusion Models

119 citations

FoundationStereo: Zero-Shot Stereo Matching

98 citations

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

96 citations

DEIM: DETR with Improved Matching for Fast Convergence

93 citations

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

92 citations

MLVU: Benchmarking Multi-task Long Video Understanding

89 citations

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

89 citations

DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

83 citations

Teaching Large Language Models to Regress Accurate Image Quality Scores Using Score Distribution

81 citations

MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds

80 citations

AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

78 citations

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

70 citations

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

70 citations

Adaptive Keyframe Sampling for Long Video Understanding

68 citations

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

68 citations

One-Minute Video Generation with Test-Time Training

65 citations

SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

62 citations

RandAR: Decoder-only Autoregressive Visual Generation in Random Orders

61 citations

Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise

59 citations

DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

59 citations

ICLR 2025

Top 30

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

1,318 citations

RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

642 citations

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

629 citations

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality

386 citations

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

375 citations

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

365 citations

Generative Verifiers: Reward Modeling as Next-Token Prediction

348 citations

OpenHands: An Open Platform for AI Software Developers as Generalist Agents

334 citations

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

299 citations

Scaling and evaluating sparse autoencoders

298 citations

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

294 citations

Safety Alignment Should be Made More Than Just a Few Tokens Deep

277 citations

Mixture-of-Agents Enhances Large Language Model Capabilities

274 citations

Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

272 citations

MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion

262 citations

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models

252 citations

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

236 citations

LoRA Learns Less and Forgets Less

233 citations

Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models

233 citations

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

230 citations

Generative Representational Instruction Tuning

212 citations

Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge

207 citations

Self-Play Preference Optimization for Language Model Alignment

207 citations

Inverse Scaling: When Bigger Isn't Better

180 citations

AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents

180 citations

Revisiting Feature Prediction for Learning Visual Representations from Video

178 citations

Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts

170 citations

G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model

169 citations

The Unreasonable Ineffectiveness of the Deeper Layers

158 citations

Diffusion Models Are Real-Time Game Engines

156 citations

〰️

Topic Trends

Research topic lifecycle

View all topics →

Large Language Models

3194 papers · Language Models

Feb '24 — Jan '263147 papers

Diffusion Models

2550 papers · Generative Models

Feb '24 — Jan '262503 papers

Vision Transformers

2307 papers · Architectures

Feb '24 — Jan '262251 papers

Representation Learning

2278 papers · Representation Learning

Feb '24 — Jan '262218 papers

Graph Neural Networks

1904 papers · Architectures

Ziyi Yang, Xinyu Gao, Wen Zhou et al.

Top Authors

Topic trends: 31,945 papers · similarity ≥ 0.4 · year ≥ 2024 · Data sourced from Semantic Scholar

34,180 papers | Abstracts: 21,545 (63.0%) | Citations: 34,180 (100.0%) | arXiv: 1,972 (5.8%)

Built: Jan 31, 2026, 1:11 AM AMS