Most Cited ICML &quot;physical constraint integration&quot; Papers

ICML 2024arXiv:2401.09417

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

Lianghui Zhu, Bencheng Liao, Qian Zhang et al.

1457

ICML 2024arXiv:2305.14325

Improving Factuality and Reasoning in Language Models through Multiagent Debate

Yilun Du, Shuang Li, Antonio Torralba et al.

1274

ICML 2024arXiv:2405.21060

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Tri Dao, Albert Gu

1146

ICML 2024arXiv:2308.02490

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities

Weihao Yu, Zhengyuan Yang, Linjie Li et al.

1066

ICML 2024arXiv:2403.04132

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

Wei-Lin Chiang, Lianmin Zheng, Ying Sheng et al.

1026

ICML 2024spotlightarXiv:2402.01306

Model Alignment as Prospect Theoretic Optimization

Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff et al.

871

ICML 2025arXiv:2410.18072

WorldSimBench: Towards Video Generation Models as World Simulators

Yiran Qin, Zhelun Shi, Jiwen Yu et al.

842

ICML 2024arXiv:2402.04249

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Mantas Mazeika, Long Phan, Xuwang Yin et al.

802

ICML 2024arXiv:2309.05519

#10

NExT-GPT: Any-to-Any Multimodal LLM

Shengqiong Wu, Hao Fei, Leigang Qu et al.

726

ICML 2024arXiv:2402.09353

#11

DoRA: Weight-Decomposed Low-Rank Adaptation

Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin et al.

706

ICML 2024arXiv:2301.11325

#12

MusicRL: Aligning Music Generation to Human Preferences

Geoffrey Cideron, Sertan Girgin, Mauro Verzetti et al.

616

ICML 2024arXiv:2401.10774

#13

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Tianle Cai, Yuhong Li, Zhengyang Geng et al.

549

ICML 2024arXiv:2311.03099

#14

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

Le Yu, Bowen Yu, Haiyang Yu et al.

531

ICML 2024arXiv:2309.00267

#15

RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Harrison Lee, Samrat Phatale, Hassan Mansoor et al.

527

ICML 2024arXiv:2401.10020

#16

Self-Rewarding Language Models

Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho et al.

497

ICML 2024oralarXiv:2310.10688

#17

A decoder-only foundation model for time-series forecasting

Abhimanyu Das, Weihao Kong, Rajat Sen et al.

495

ICML 2024arXiv:2401.01335

#18

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Zixiang Chen, Yihe Deng, Huizhuo Yuan et al.

480

ICML 2025arXiv:2501.17161

#19

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Tianzhe Chu, Yuexiang Zhai, Jihan Yang et al.

442

ICML 2024arXiv:2402.02592

#20

Unified Training of Universal Time Series Forecasting Transformers

Gerald Woo, Chenghao Liu, Akshat Kumar et al.

428

ICML 2024arXiv:2401.01614

#21

GPT-4V(ision) is a Generalist Web Agent, if Grounded

Boyuan Zheng, Boyu Gou, Jihyung Kil et al.

424

ICML 2024arXiv:2312.14125

#22

VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dan Kondratyuk, Lijun Yu, Xiuye Gu et al.

420

ICML 2024arXiv:2401.08417

#23

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

Haoran Xu, Amr Sharaf, Yunmo Chen et al.

414

ICML 2024arXiv:2312.09390

#24

Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision

Collin Burns, Pavel Izmailov, Jan Kirchner et al.

406

ICML 2024arXiv:2402.04333

#25

LESS: Selecting Influential Data for Targeted Instruction Tuning

Mengzhou Xia, Sadhika Malladi, Suchin Gururangan et al.

400

ICML 2024oralarXiv:2402.15391

#26

Genie: Generative Interactive Environments

Jake Bruce, Michael Dennis, Ashley Edwards et al.

397

ICML 2024arXiv:2312.17090

#27

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Haoning Wu, Zicheng Zhang, Weixia Zhang et al.

393

ICML 2024arXiv:2305.13534

#28

How Language Model Hallucinations Can Snowball

Muru Zhang, Ofir Press, William Merrill et al.

378

ICML 2024arXiv:2403.03507

#29

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

Jiawei Zhao, Zhenyu Zhang, Beidi Chen et al.

371

ICML 2024arXiv:2402.02750

#30

KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

Zirui Liu, Jiayi Yuan, Hongye Jin et al.

368

ICML 2024arXiv:2309.16797

#31

Promptbreeder: Self-Referential Self-Improvement via Prompt Evolution

Chrisantha Fernando, Dylan Banarse, Henryk Michalewski et al.

364

ICML 2024arXiv:2311.03658

#32

The Linear Representation Hypothesis and the Geometry of Large Language Models

Kiho Park, Yo Joong Choe, Victor Veitch

363

ICML 2025arXiv:2406.11939

#33

From Crowdsourced Data to High-quality Benchmarks: Arena-Hard and Benchbuilder Pipeline

Tianle Li, Wei-Lin Chiang, Evan Frick et al.

357

ICML 2024arXiv:2402.03885

#34

MOMENT: A Family of Open Time-series Foundation Models

Mononito Goswami, Konrad Szafer, Arjun Choudhry et al.

354

ICML 2024arXiv:2310.16834

#35

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

Aaron Lou, Chenlin Meng, Stefano Ermon

354

ICML 2024arXiv:2402.01030

#36

Executable Code Actions Elicit Better LLM Agents

Xingyao Wang, Yangyi Chen, Lifan Yuan et al.

344

ICML 2024arXiv:2402.12354

#37

LoRA+: Efficient Low Rank Adaptation of Large Models

Soufiane Hayou, Nikhil Ghosh, Bin Yu

341

ICML 2024arXiv:2401.15077

#38

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

Yuhui Li, Fangyun Wei, Chao Zhang et al.

338

ICML 2024arXiv:2403.03218

#39

The WMDP Benchmark: Measuring and Reducing Malicious Use with Unlearning

Nathaniel Li, Alexander Pan, Anjali Gopal et al.

333

ICML 2024arXiv:2312.06635

#40

Gated Linear Attention Transformers with Hardware-Efficient Training

Songlin Yang, Bailin Wang, Yikang Shen et al.

329

ICML 2024spotlightarXiv:2402.01622

#41

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Jian Xie, Kai Zhang, Jiangjie Chen et al.

319

ICML 2024arXiv:2312.11456

#42

Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-constraint

Wei Xiong, Hanze Dong, Chenlu Ye et al.

312

ICML 2024arXiv:2403.03100

#43

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Zeqian Ju, Yuancheng Wang, Kai Shen et al.

306

ICML 2024arXiv:2311.12871

#44

An Embodied Generalist Agent in 3D World

Jiangyong Huang, Silong Yong, Xiaojian Ma et al.

305

ICML 2024arXiv:2309.17179

#45

AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training

Ziyu Wan, Xidong Feng, Muning Wen et al.

304

ICML 2024arXiv:2402.04788

#46

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

Dongping Chen, Ruoxi Chen, Shilin Zhang et al.

281

ICML 2024arXiv:2402.13753

#47

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Yiran Ding, Li Lyna Zhang, Chengruidong Zhang et al.

278

ICML 2024arXiv:2306.07629

#48

SqueezeLLM: Dense-and-Sparse Quantization

Sehoon Kim, Coleman Hooper, Amir Gholaminejad et al.

272

ICML 2025oralarXiv:2501.04519

#49

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Xinyu Guan, Li Lyna Zhang, Yifei Liu et al.

268

ICML 2024arXiv:2402.07865

#50

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna et al.

258

ICML 2024arXiv:2402.02057

#51

Break the Sequential Dependency of LLM Inference Using Lookahead Decoding

Yichao Fu, Peter Bailis, Ion Stoica et al.

257

ICML 2024arXiv:2404.10719

#52

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Shusheng Xu, Wei Fu, Jiaxuan Gao et al.

253

ICML 2024arXiv:2406.10774

#53

QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference

Jiaming Tang, Yilong Zhao, Kan Zhu et al.

248

ICML 2024spotlightarXiv:2309.14316

#54

Physics of Language Models: Part 3.1, Knowledge Storage and Extraction

Zeyuan Allen-Zhu, Yuanzhi Li

244

ICML 2024arXiv:2402.04396

#55

QuIP$\#$: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks

Albert Tseng, Jerry Chee, Qingyao Sun et al.

241

ICML 2024arXiv:2402.04997

#56

Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design

Andrew Campbell, Jason Yim, Regina Barzilay et al.

234

ICML 2024arXiv:2403.09631

#57

3D-VLA: A 3D Vision-Language-Action Generative World Model

Haoyu Zhen, Xiaowen Qiu, Peihao Chen et al.

233

ICML 2024arXiv:2404.19737

#58

Better & Faster Large Language Models via Multi-token Prediction

Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Roziere et al.

232

ICML 2024arXiv:2401.12070

#59

Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

Abhimanyu Hans, Avi Schwarzschild, Valeriia Cherepanova et al.

225

ICML 2024arXiv:2401.03065

#60

CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Alex Gu, Baptiste Roziere, Hugh Leather et al.

224

ICML 2024arXiv:2311.06668

#61

In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering

Sheng Liu, Haotian Ye, Lei Xing et al.

224

ICML 2024arXiv:2402.14650

#62

GaussianPro: 3D Gaussian Splatting with Progressive Propagation

Kai Cheng, Xiaoxiao Long, Kaizhi Yang et al.

215

ICML 2025arXiv:2410.04417

#63

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

Yuan Zhang, Chun-Kai Fan, Junpeng Ma et al.

214

ICML 2024arXiv:2310.01377

#64

ULTRAFEEDBACK: Boosting Language Models with Scaled AI Feedback

Ganqu Cui, Lifan Yuan, Ning Ding et al.

214

ICML 2024arXiv:2402.06782

#65

Debating with More Persuasive LLMs Leads to More Truthful Answers

Akbir Khan, John Hughes, Dan Valentine et al.

212

ICML 2024arXiv:2312.02120

#66

Magicoder: Empowering Code Generation with OSS-Instruct

Yuxiang Wei, Zhe Wang, Jiawei Liu et al.

208

ICML 2024arXiv:2401.11708

#67

Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

Ling Yang, Zhaochen Yu, Chenlin Meng et al.

200

ICML 2025spotlightarXiv:2407.04620

#68

Learning to (Learn at Test Time): RNNs with Expressive Hidden States

Yu Sun, Xinhao Li, Karan Dalal et al.

199

ICML 2024arXiv:2402.04825

#69

Fast Timing-Conditioned Latent Audio Diffusion

Zach Evans, CJ Carr, Josiah Taylor et al.

199

ICML 2024arXiv:2401.02051

#70

Evolution of Heuristics: Towards Efficient Automatic Algorithm Design Using Large Language Model

Fei Liu, Tong Xialiang, Mingxuan Yuan et al.

196

ICML 2024arXiv:2402.14905

#71

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Zechun Liu, Changsheng Zhao, Forrest Iandola et al.

195

ICML 2024spotlightarXiv:2312.00886

#72

Nash Learning from Human Feedback

REMI MUNOS, Michal Valko, Daniele Calandriello et al.

195

ICML 2024arXiv:2402.04845

#73

AlphaFold Meets Flow Matching for Generating Protein Ensembles

Bowen Jing, Bonnie Berger, Tommi Jaakkola

195

ICML 2024arXiv:2311.01455

#74

RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

Yufei Wang, Zhou Xian, Feng Chen et al.

188

ICML 2024arXiv:2402.07872

#75

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Soroush Nasiriany, Fei Xia, Wenhao Yu et al.

188

ICML 2024arXiv:2402.10171

#76

Data Engineering for Scaling Language Models to 128K Context

Yao Fu, Rameswar Panda, Xinyao Niu et al.

186

ICML 2024arXiv:2402.05162

#77

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

Boyi Wei, Kaixuan Huang, Yangsibo Huang et al.

184

ICML 2025oralarXiv:2410.17434

#78

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao et al.

184

ICML 2024arXiv:2403.07183

#79

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Weixin Liang, Zachary Izzo, Yaohui Zhang et al.

183

ICML 2025arXiv:2412.04454

#80

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Yiheng Xu, Zekun Wang, Junli Wang et al.

182

ICML 2024arXiv:2307.10635

#81

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

Xiaoxuan Wang, ziniu hu, Pan Lu et al.

181

ICML 2024spotlightarXiv:2402.02366

#82

Transolver: A Fast Transformer Solver for PDEs on General Geometries

Haixu Wu, Huakun Luo, Haowen Wang et al.

181

ICML 2024arXiv:2404.14367

#83

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

Fahim Tajwar, Anikait Singh, Archit Sharma et al.

179

ICML 2024arXiv:2402.14992

#84

tinyBenchmarks: evaluating LLMs with fewer examples

Felipe Maia Polo, Lucas Weber, Leshem Choshen et al.

178

ICML 2024arXiv:2304.11082

#85

Fundamental Limitations of Alignment in Large Language Models

Yotam Wolf, Noam Wies, Oshri Avnery et al.

178

ICML 2024arXiv:2401.06102

#86

Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models

Asma Ghandeharioun, ‪Avi Caciularu‬‏, Adam Pearce et al.

173

ICML 2024arXiv:2403.03234

#87

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

Yair Schiff, Chia Hsiang Kao, Aaron Gokaslan et al.

170

ICML 2024arXiv:2310.03302

#88

MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation

Qian Huang, Jian Vora, Percy Liang et al.

168

ICML 2024arXiv:2402.01831

#89

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

Zhifeng Kong, ARUSHI GOEL, Rohan Badlani et al.

168

ICML 2024arXiv:2401.01967

#90

A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

Andrew Lee, Xiaoyan Bai, Itamar Pres et al.

165

ICML 2024arXiv:2404.16006

#91

MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI

Kaining Ying, Fanqing Meng, Jin Wang et al.

163

ICML 2024arXiv:2402.01032

#92

Repeat After Me: Transformers are Better than State Space Models at Copying

Samy Jelassi, David Brandfonbrener, Sham Kakade et al.

162

ICML 2025oralarXiv:2406.19680

#93

MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

Yuang Zhang, Jiaxi Gu, Li-Wen Wang et al.

161

ICML 2024arXiv:2401.06118

#94

Extreme Compression of Large Language Models via Additive Quantization

Vage Egiazarian, Andrei Panferov, Denis Kuznedelev et al.

160

ICML 2024arXiv:2402.01739

#95

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models

Fuzhao Xue, Zian Zheng, Yao Fu et al.

160

ICML 2025arXiv:2412.21139

#96

Training Software Engineering Agents and Verifiers with SWE-Gym

Jiayi Pan, Xingyao Wang, Graham Neubig et al.

156

ICML 2024arXiv:2402.08679

#97

COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability

Xingang Guo, Fangxu Yu, Huan Zhang et al.

156

ICML 2024arXiv:2404.04057

#98

Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation

Mingyuan Zhou, Huangjie Zheng, Zhendong Wang et al.

154

ICML 2024arXiv:2310.05175

#99

Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity

Lu Yin, You Wu, Zhenyu Zhang et al.

152

ICML 2024arXiv:2402.05749

#100

Generalized Preference Optimization: A Unified Approach to Offline Alignment

Yunhao Tang, Zhaohan Guo, Zeyu Zheng et al.

150

ICML 2024arXiv:2402.17152

#101

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

Jiaqi Zhai, Yunxing Liao, Xing Liu et al.

150

ICML 2024arXiv:2402.02368

#102

Timer: Generative Pre-trained Transformers Are Large Time Series Models

Yong Liu, Haoran Zhang, Chenyu Li et al.

148

ICML 2024arXiv:2402.08170

#103

LLaGA: Large Language and Graph Assistant

Runjin Chen, Tong Zhao, Ajay Jaiswal et al.

148

ICML 2024arXiv:2310.10505

#104

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models

Ziniu Li, Tian Xu, Yushun Zhang et al.

147

ICML 2024oralarXiv:2501.03230

#105

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

Hao Fei, Shengqiong Wu, Wei Ji et al.

146

ICML 2024arXiv:2403.02884

#106

MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Zhengyang Tang, Xingxing Zhang, Benyou Wang et al.

146

ICML 2025oralarXiv:2502.02013

#107

Layer by Layer: Uncovering Hidden Representations in Language Models

Oscar Skean, Md Rifat Arefin, Dan Zhao et al.

145

ICML 2024arXiv:2403.06634

#108

Stealing part of a production language model

Nicholas Carlini, Daniel Paleka, Krishnamurthy Dvijotham et al.

145

ICML 2024arXiv:2402.04291

#109

BiLLM: Pushing the Limit of Post-Training Quantization for LLMs

Wei Huang, Yangdong Liu, Haotong Qin et al.

142

ICML 2024arXiv:2309.00236

#110

Image Hijacks: Adversarial Images can Control Generative Models at Runtime

Luke Bailey, Euan Ong, Stuart Russell et al.

142

ICML 2024arXiv:2403.00425

#111

HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding

Zhaorun Chen, Zhuokai Zhao, HONGYIN LUO et al.

142

ICML 2024arXiv:2403.07718

#112

WorkArena: How Capable are Web Agents at Solving Common Knowledge Work Tasks?

Alexandre Drouin, Maxime Gasse, Massimo Caccia et al.

141

ICML 2024arXiv:2402.05935

#113

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Dongyang Liu, Renrui Zhang, Longtian Qiu et al.

141

ICML 2024arXiv:2402.03375

#114

BetterV: Controlled Verilog Generation with Discriminative Guidance

Zehua Pei, Huiling Zhen, Mingxuan Yuan et al.

141

ICML 2024spotlightarXiv:2402.18668

#115

Simple linear attention language models balance the recall-throughput tradeoff

Simran Arora, Sabri Eyuboglu, Michael Zhang et al.

140

ICML 2024arXiv:2403.06963

#116

The Pitfalls of Next-Token Prediction

Gregor Bachmann, Vaishnavh Nagarajan

139

ICML 2024arXiv:2401.04056

#117

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

Gokul Swamy, Christoph Dann, Rahul Kidambi et al.

139

ICML 2024arXiv:2310.18940

#118

Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game

Zelai Xu, Chao Yu, Fei Fang et al.

136

ICML 2024oralarXiv:2405.00946

#119

SparseTSF: Modeling Long-term Time Series Forecasting with 1k Parameters

Shengsheng Lin, Weiwei Lin, Wentai Wu et al.

136

ICML 2024oralarXiv:2402.19446

#120

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Yifei Zhou, Andrea Zanette, Jiayi Pan et al.

135

ICML 2024arXiv:2312.04474

#121

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Chengshu Li, Jacky Liang, Andy Zeng et al.

135

ICML 2025arXiv:2404.16873

#122

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Anselm Paulus, Arman Zharmagambetov, Chuan Guo et al.

132

ICML 2024arXiv:2309.06135

#123

Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts

Zhi-Yi Chin, Chieh Ming Jiang, Ching-Chun Huang et al.

132

ICML 2025arXiv:2501.07542

#124

Imagine While Reasoning in Space: Multimodal Visualization-of-Thought

Chengzu Li, Wenshan Wu, Huanyu Zhang et al.

131

ICML 2024spotlightarXiv:2403.03181

#125

Behavior Generation with Latent Actions

Seungjae Lee, Yibin Wang, Haritheja Etukuru et al.

129

ICML 2024spotlightarXiv:2402.09739

#126

QuRating: Selecting High-Quality Data for Training Language Models

Alexander Wettig, Aatmik Gupta, Saumya Malik et al.

128

ICML 2024arXiv:2404.08819

#127

The Illusion of State in State-Space Models

William Merrill, Jackson Petty, Ashish Sabharwal

128

ICML 2024oralarXiv:2404.08472

#128

TSLANet: Rethinking Transformers for Time Series Representation Learning

Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen et al.

127

ICML 2025oralarXiv:2411.04983

#129

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

Gaoyue Zhou, Hengkai Pan, Yann LeCun et al.

126

ICML 2025arXiv:2411.02385

#130

How Far Is Video Generation from World Model: A Physical Law Perspective

Bingyi Kang, Yang Yue, Rui Lu et al.

126

ICML 2024arXiv:2402.10207

#131

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment

Rui Yang, Xiaoman Pan, Feng Luo et al.

125

ICML 2024arXiv:2312.04511

#132

An LLM Compiler for Parallel Function Calling

Sehoon Kim, Suhong Moon, Ryan Tabrizi et al.

124

ICML 2024arXiv:2402.02207

#133

Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models

Yongshuo Zong, Ondrej Bohdal, Tingyang Yu et al.

123

ICML 2024arXiv:2401.00448

#134

Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

Nikhil Sardana, Jacob Portes, Alexandre (Sasha) Doubov et al.

123

ICML 2024spotlightarXiv:2402.05930

#135

WebLINX: Real-World Website Navigation with Multi-Turn Dialogue

Xing Han Lù, Zdeněk Kasner, Siva Reddy

121

ICML 2024arXiv:2404.11999

#136

Token-level Direct Preference Optimization

Yongcheng Zeng, Guoqing Liu, Weiyu Ma et al.

120

ICML 2025arXiv:2502.19417

#137

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

Lucy Xiaoyang Shi, brian ichter, Michael Equi et al.

120

ICML 2024arXiv:2402.07871

#138

Scaling Laws for Fine-Grained Mixture of Experts

Jan Ludziejewski, Jakub Krajewski, Kamil Adamczewski et al.

120

ICML 2025arXiv:2501.06848

#139

A General Framework for Inference-time Scaling and Steering of Diffusion Models

Raghav Singhal, Zachary Horvitz, Ryan Teehan et al.

119

ICML 2024arXiv:2402.03681

#140

RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback

Yufei Wang, Zhanyi Sun, Jesse Zhang et al.

119

ICML 2025arXiv:2411.04746

#141

Taming Rectified Flow for Inversion and Editing

Jiangshan Wang, Junfu Pu, Zhongang Qi et al.

119

ICML 2025spotlightarXiv:2501.17148

#142

AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders

Zhengxuan Wu, Aryaman Arora, Atticus Geiger et al.

118

ICML 2024arXiv:2310.17022

#143

Controlled Decoding from Language Models

Sidharth Mudgal, Jong Lee, Harish Ganapathy et al.

118

ICML 2025arXiv:2412.01981

#144

Free Process Rewards without Process Labels

Lifan Yuan, Wendi Li, Huayu Chen et al.

117

ICML 2024arXiv:2402.01868

#145

Challenges in Training PINNs: A Loss Landscape Perspective

Pratik Rathore, Weimu Lei, Zachary Frangella et al.

116

ICML 2025arXiv:2502.01100

#146

ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

Yuchen Lin, Ronan Le Bras, Kyle Richardson et al.

116

ICML 2025arXiv:2410.10934

#147

Agent-as-a-Judge: Evaluate Agents with Agents

Mingchen Zhuge, Changsheng Zhao, Dylan Ashley et al.

114

ICML 2025spotlightarXiv:2412.14803

#148

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

Yucheng Hu, Yanjiang Guo, Pengchao Wang et al.

113

ICML 2024arXiv:2306.06101

#149

Prodigy: An Expeditiously Adaptive Parameter-Free Learner

Konstantin Mishchenko, Aaron Defazio

113

ICML 2024arXiv:2311.12052

#150

MagicPose: Realistic Human Poses and Facial Expressions Retargeting with Identity-aware Diffusion

Di Chang, Yichun Shi, Quankai Gao et al.

113

ICML 2025arXiv:2411.00774

#151

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

Xiong Wang, Yangze Li, Chaoyou Fu et al.

112

ICML 2025arXiv:2501.18427

#152

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Enze Xie, Junsong Chen, Yuyang Zhao et al.

111

ICML 2024arXiv:2310.12978

#153

HumanTOMATO: Text-aligned Whole-body Motion Generation

Shunlin Lu, Ling-Hao Chen, Ailing Zeng et al.

111

ICML 2024arXiv:2402.07043

#154

A Tale of Tails: Model Collapse as a Change of Scaling Laws

Elvis Dohmatob, Yunzhen Feng, Pu Yang et al.

110

ICML 2024arXiv:2312.06942

#155

AI Control: Improving Safety Despite Intentional Subversion

Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan et al.

110

ICML 2024arXiv:2402.07319

#156

ODIN: Disentangled Reward Mitigates Hacking in RLHF

Lichang Chen, Chen Zhu, Jiuhai Chen et al.

110

ICML 2025oralarXiv:2502.17424

#157

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

Jan Betley, Daniel Tan, Niels Warncke et al.

108

ICML 2024arXiv:2404.12377

#158

RoboDreamer: Learning Compositional World Models for Robot Imagination

Siyuan Zhou, Yilun Du, Jiaben Chen et al.

ICML 2024arXiv:2402.11592

#159

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark

Yihua Zhang, Pingzhi Li, Junyuan Hong et al.

ICML 2024arXiv:2402.04248

#160

Can Mamba Learn How To Learn? A Comparative Study on In-Context Learning Tasks

Jong Ho Park, Jaden Park, Zheyang Xiong et al.

ICML 2024arXiv:2403.03950

#161

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Jesse Farebrother, Jordi Orbay, Quan Vuong et al.

ICML 2024arXiv:2310.05249

#162

In-context Convergence of Transformers

Yu Huang, Yuan Cheng, Yingbin LIANG

106

ICML 2024arXiv:2401.18018

#163

On Prompt-Driven Safeguarding for Large Language Models

Chujie Zheng, Fan Yin, Hao Zhou et al.

106

ICML 2025spotlightarXiv:2404.18922

#164

DPO Meets PPO: Reinforced Token Optimization for RLHF

Han Zhong, Zikang Shan, Guhao Feng et al.

106

ICML 2025arXiv:2501.18362

#165

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

Yuxin Zuo, Shang Qu, Yifei Li et al.

105

ICML 2025arXiv:2405.20947

#166

OR-Bench: An Over-Refusal Benchmark for Large Language Models

Jiaxing Cui, Wei-Lin Chiang, Ion Stoica et al.

104

ICML 2024oralarXiv:2402.11435

#167

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning

Long Qian, Juncheng Li, Yu Wu et al.

104

ICML 2024arXiv:2403.00409

#168

Provably Robust DPO: Aligning Language Models with Noisy Feedback

Sayak Ray Chowdhury, Anush Kini, Nagarajan Natarajan

103

ICML 2024arXiv:2402.08567

#169

Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

Xiangming Gu, Xiaosen Zheng, Tianyu Pang et al.

103

ICML 2024arXiv:2402.14735

#170

How Transformers Learn Causal Structure with Gradient Descent

Eshaan Nichani, Alex Damian, Jason Lee

ICML 2024arXiv:2402.10963

#171

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Alexander Havrilla, Sharath Chandra Raparthy, Christoforos Nalmpantis et al.

ICML 2025arXiv:2409.08264

#172

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Rogerio Bonatti, Dan Zhao, Francesco Bonacci et al.

ICML 2025oralarXiv:2502.06768

#173

Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

Jaeyeon Kim, Kulin Shah, Vasilis Kontonis et al.

ICML 2024arXiv:2311.08718

#174

Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling

Bairu Hou, Yujian Liu, Kaizhi Qian et al.

101

ICML 2024arXiv:2401.17264

#175

Proactive Detection of Voice Cloning with Localized Watermarking

Robin San Roman, Pierre Fernandez, Hady Elsahar et al.

100

ICML 2025oralarXiv:2501.05444

#176

Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark

Yunzhuo Hao, Jiawei Gu, Huichen Wang et al.

100

ICML 2024arXiv:2308.10379

#177

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models

Bilgehan Sel, Ahmad Al-Tawaha, Vanshaj Khattar et al.

ICML 2025oralarXiv:2504.01848

#178

PaperBench: Evaluating AI’s Ability to Replicate AI Research

Giulio Starace, Oliver Jaffe, Dane Sherburn et al.

ICML 2024arXiv:2401.05507

#179

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks

Xueyu Hu, Ziyu Zhao, Shuang Wei et al.

ICML 2025oralarXiv:2502.09560

#180

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Rui Yang, Hanyang(Jeremy) Chen, Junyu Zhang et al.

ICML 2024arXiv:2402.06121

#181

Iterated Denoising Energy Matching for Sampling from Boltzmann Densities

Tara Akhound-Sadegh, Jarrid Rector-Brooks, Joey Bose et al.

ICML 2024arXiv:2403.11207

#182

MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data

Paul Scotti, Mihir Tripathy, Cesar Kadir Torrico Villanueva et al.

ICML 2025oralarXiv:2502.12147

#183

Learning Smooth and Expressive Interatomic Potentials for Physical Property Prediction

Xiang Fu, Brandon Wood, Luis Barroso-Luque et al.

ICML 2024arXiv:2402.03293

#184

Flora: Low-Rank Adapters Are Secretly Gradient Compressors

Yongchang Hao, Yanshuai Cao, Lili Mou

ICML 2024arXiv:2402.07207

#185

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong et al.

ICML 2025arXiv:2401.17256

#186

Weak-to-Strong Jailbreaking on Large Language Models

Xuandong Zhao, Xianjun Yang, Tianyu Pang et al.

ICML 2025arXiv:2410.21333

#187

Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse

Ryan Liu, Jiayi Geng, Addison J. Wu et al.

ICML 2024arXiv:2402.18567

#188

Diffusion Language Models Are Versatile Protein Learners

Xinyou Wang, Zaixiang Zheng, Fei YE et al.

ICML 2025arXiv:2401.01879

#189

Theoretical guarantees on the best-of-n alignment policy

Ahmad Beirami, Alekh Agarwal, Jonathan Berant et al.

ICML 2024arXiv:2403.09636

#190

Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference

Piotr Nawrot, Adrian Łańcucki, Marcin Chochowski et al.

ICML 2025arXiv:2502.09621

#191

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Dongzhi Jiang, Renrui Zhang, Ziyu Guo et al.

ICML 2024spotlightarXiv:2401.12926

#192

DsDm: Model-Aware Dataset Selection with Datamodels

Logan Engstrom

ICML 2024spotlightarXiv:2311.02462

#193

Position: Levels of AGI for Operationalizing Progress on the Path to AGI

Meredith Morris, Jascha Sohl-Dickstein, Noah Fiedel et al.

ICML 2024oralarXiv:2402.02680

#194

Large Language Models are Geographically Biased

Rohin Manvi, Samar Khanna, Marshall Burke et al.

ICML 2024arXiv:2310.07177

#195

Online Speculative Decoding

Xiaoxuan Liu, Lanxiang Hu, Peter Bailis et al.

ICML 2024arXiv:2403.03542

#196

DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training

Zhongkai Hao, Chang Su, LIU SONGMING et al.

ICML 2024arXiv:2402.05602

#197

AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers

Reduan Achtibat, Sayed Mohammad Vakilzadeh Hatefi, Maximilian Dreyer et al.

ICML 2024arXiv:2405.07813

#198

Localizing Task Information for Improved Model Merging and Compression

Ke Wang, Nikolaos Dimitriadis, Guillermo Ortiz-Jimenez et al.

ICML 2025spotlightarXiv:2410.02089

#199

RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

Jonas Gehring, Kunhao Zheng, Jade Copet et al.

ICML 2024arXiv:2312.04985

#200

SparQ Attention: Bandwidth-Efficient LLM Inference

Luka Ribar, Ivan Chelombiev, Luke Hudlass-Galley et al.