Most Cited 2024 &quot;pre-training data&quot; Papers

#12203

Position: On the Possibilities of AI-Generated Text Detection

Souradip Chakraborty, Amrit Singh Bedi, Sicheng Zhu et al.

#12204

Policy Evaluation for Variance in Average Reward Reinforcement Learning

Shubhada Agrawal, Prashanth L.A., Siva Maguluri

#12205

When is Transfer Learning Possible?

My Phan, Kianté Brantley, Stephanie Milani et al.

#12206

Generalization Analysis for Multi-Label Learning

Yi-Fan Zhang, Min-Ling Zhang

#12207

Learning with Partial-Label and Unlabeled Data: A Uniform Treatment for Supervision Redundancy and Insufficiency

Yangfan Liu, JIAQI LYU, Xin Geng et al.

#12208

Position: Future Directions in the Theory of Graph Machine Learning

Christopher Morris, Fabrizio Frasca, Nadav Dym et al.

#12209

Evaluation of Trajectory Distribution Predictions with Energy Score

Novin Shahroudi, Mihkel Lepson, Meelis Kull

#12210

Active Ranking and Matchmaking, with Perfect Matchings

Hafedh El Ferchichi, Matthieu LERASLE, Vianney Perchet

#12211

Towards Neural Architecture Search through Hierarchical Generative Modeling

Lichuan Xiang, Łukasz Dudziak, Mohamed Abdelfattah et al.

#12212

Implicit Representations for Constrained Image Segmentation

Jan Philipp Schneider, Mishal Fatima, Jovita Lukasik et al.

#12213

Amortized Variational Deep Kernel Learning

Alan Matias, César Lincoln Mattos, Joao Paulo Gomes et al.

ICML 2024arXiv:2406.02165

#12214

SaVeR: Optimal Data Collection Strategy for Safe Policy Evaluation in Tabular MDP

Subhojyoti Mukherjee, Josiah Hanna, Robert Nowak

#12215

Position: A Safe Harbor for AI Evaluation and Red Teaming

Shayne Longpre, Sayash Kapoor, Kevin Klyman et al.

#12216

Position: Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination

Zhiyao Luo, Yangchen Pan, Peter Watkinson et al.

#12217

Graph Out-of-Distribution Detection Goes Neighborhood Shaping

Tianyi Bao, Qitian Wu, Zetian Jiang et al.

#12218

Position: On the Societal Impact of Open Foundation Models

Sayash Kapoor, Rishi Bommasani, Kevin Klyman et al.

#12219

Learning Label Shift Correction for Test-Agnostic Long-Tailed Recognition

Tong Wei, Zhen Mao, Zi-Hao Zhou et al.

#12220

Lightweight Image Super-Resolution via Flexible Meta Pruning

Yulun Zhang, Kai Zhang, Luc Van Gool et al.

#12221

Self-Driven Entropy Aggregation for Byzantine-Robust Heterogeneous Federated Learning

Wenke Huang, Zekun Shi, Mang Ye et al.

#12222

Position: Open-Endedness is Essential for Artificial Superhuman Intelligence

Edward Hughes, Michael Dennis, Jack Parker-Holder et al.

#12223

Fundamental Limits of Distributed Covariance Matrix Estimation Under Communication Constraints

Mohammad Reza Rahmani, Mohammad Hossein Yassaee, Mohammad Ali Maddah Ali et al.

#12224

Faster Streaming and Scalable Algorithms for Finding Directed Dense Subgraphs in Large Graphs

Slobodan Mitrovic, Theodore Pan

ICML 2024arXiv:2402.06662

#12225

Sign Rank Limitations for Inner Product Graph Decoders

Su Hyeong Lee, QINGQI ZHANG, Risi Kondor

#12226

Effect-Invariant Mechanisms for Policy Generalization

Sorawit Saengkyongam, Niklas Pfister, Predag Klasnja et al.

ICML 2024arXiv:2306.10983

#12227

Position: Data-driven Discovery with Large Generative Models

Bodhisattwa Prasad Majumder, Harshit Surana, Dhruv Agarwal et al.

#12228

What Would Gauss Say About Representations? Probing Pretrained Image Models using Synthetic Gaussian Benchmarks

Ching-Yun (Irene) Ko, Pin-Yu Chen, Payel Das et al.

#12229

STELLA: Continual Audio-Video Pre-training with SpatioTemporal Localized Alignment

Jaewoo Lee, Jaehong Yoon, Wonjae Kim et al.

ICML 2024arXiv:2406.10017

#12230

Tilt and Average : Geometric Adjustment of the Last Layer for Recalibration

Gyusang Cho, Chan-Hyun Youn

#12231

Login

ICLR 2024arXiv:1006.2411

#12232

MLI Formula: A Nearly Scale-Invariant Solution with Noise Perturbation

Bowen Tao, Xin-Chun Li, De-Chuan Zhan

#12233

Predicting Dose-Response Curves with Deep Neural Networks

Pedro A. Campana, Paul Prasse, Tobias Scheffer

#12234

ReLU Network with Width $d+\mathcal{O}(1)$ Can Achieve Optimal Approximation Rate

Chenghao Liu, Minghua Chen

#12235

Improved Dimensionality Dependence for Zeroth-Order Optimisation over Cross-Polytopes

Weijia Shao

#12236

Position: Near to Mid-term Risks and Opportunities of Open-Source Generative AI

Francisco Eiras, Aleksandar Petrov, Bertie Vidgen et al.

#12237

Flexible Residual Binarization for Image Super-Resolution

Yulun Zhang, Haotong Qin, Zixiang Zhao et al.

#12238

Characterizing ResNet's Universal Approximation Capability

Chenghao Liu, Enming Liang, Minghua Chen

#12239

Position: Opportunities Exist for Machine Learning in Magnetic Fusion Energy

Lucas Spangher, Allen Wang, Andrew Maris et al.

#12240

Physics and Lie symmetry informed Gaussian processes

David Dalton, Dirk Husmeier, Hao Gao

#12241

Position: Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback

Vincent Conitzer, Rachel Freedman, Jobstq Heitzig et al.

#12242

Towards General Algorithm Discovery for Combinatorial Optimization: Learning Symbolic Branching Policy from Bipartite Graph

Yufei Kuang, Jie Wang, Yuyan Zhou et al.

#12243

Minimum Norm Interpolation Meets The Local Theory of Banach Spaces

Gil Kur, Pedro Abdalla, Pierre Bizeul et al.

#12244

Exploiting Human-AI Dependence for Learning to Defer

Zixi Wei, Yuzhou Cao, Lei Feng

#12245

AMPA: Adaptive Mixed Precision Allocation for Low-Bit Integer Training

Li Ding, Wen Fei, Yuyang Huang et al.

#12246

Contrastive Predict-and-Search for Mixed Integer Linear Programs

Taoan Huang, Aaron Ferber, Arman Zharmagambetov et al.

#12247

Position: Fundamental Limitations of LLM Censorship Necessitate New Approaches

David Glukhov, Ilia Shumailov, Yarin Gal et al.

#12248

Information Complexity of Stochastic Convex Optimization: Applications to Generalization, Memorization, and Tracing

Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam et al.

#12249

Bifurcated Attention for Single-Context Large-Batch Sampling

Ben Athiwaratkun, Sujan Kumar Gonugondla, Sanjay Krishna Gouda et al.

#12250

Breadth-First Exploration on Adaptive Grid for Reinforcement Learning

Youngsik Yoon, Gangbok Lee, Sungsoo Ahn et al.

#12251

Kepler codebook

Junrong Lian, Ziyue Dong, Pengxu Wei et al.

#12252

Augmenting Decision with Hypothesis in Reinforcement Learning

Nguyen Minh Quang, Hady Lauw

#12253

The Effect of Weight Precision on the Neuron Count in Deep ReLU Networks

Songhua He, Periklis Papakonstantinou

#12254

Cell2Sentence: Teaching Large Language Models the Language of Biology

Daniel Levine, Syed Rizvi, Sacha Lévy et al.

#12255

Position: Social Environment Design Should be Further Developed for AI-based Policy-Making

Edwin Zhang, Sadie Zhao, Tonghan Wang et al.

#12256

Dynamic Metric Embedding into lp Space

Kiarash Banihashem, MohammadTaghi Hajiaghayi, Dariusz Kowalski et al.

#12257

Meta Evidential Transformer for Few-Shot Open-Set Recognition

Hitesh Sapkota, Krishna Neupane, Qi Yu

#12258

Editing Partially Observable Networks via Graph Diffusion Models

Puja Trivedi, Ryan A Rossi, David Arbour et al.

#12259

On the Convergence of Projected Bures-Wasserstein Gradient Descent under Euclidean Strong Convexity

Junyi FAN, Yuxuan Han, Zijian Liu et al.

#12260

The Emergence of Reproducibility and Consistency in Diffusion Models

Huijie Zhang, Jinfan Zhou, Yifu Lu et al.

#12261

Accelerated Speculative Sampling Based on Tree Monte Carlo

Zhengmian Hu, Heng Huang

#12262

How Deep Do We Need: Accelerating Training and Inference of Neural ODEs via Control Perspective

Keyan Miao, Konstantinos Gatsis

#12263

Position: Video as the New Language for Real-World Decision Making

Sherry Yang, Jacob C Walker, Jack Parker-Holder et al.

#12264

Model-Free Robust $\phi$-Divergence Reinforcement Learning Using Both Offline and Online Data

Kishan Panaganti, Adam Wierman, Eric Mazumdar

#12265

Position: Intent-aligned AI Systems Must Optimize for Agency Preservation

Catalin Mitelut, Benjamin Smith, Peter Vamplew

#12266

Position: AI-Powered Autonomous Weapons Risk Geopolitical Instability and Threaten AI Research

Riley Simmons-Edler, Ryan Badman, Shayne Longpre et al.

#12267

Deep Demonstration Tracing: Learning Generalizable Imitator Policy for Runtime Imitation from a Single Demonstration

Xiong-Hui Chen, Junyin Ye, Hang Zhao et al.

#12268

Policy-conditioned Environment Models are More Generalizable

Ruifeng Chen, Xiong-Hui Chen, Yihao Sun et al.

#12269

SILVER: Single-loop variance reduction and application to federated learning

Kazusato Oko, Shunta Akiyama, Denny Wu et al.

ICML 2024arXiv:2406.02432

#12270

Coresets for Multiple $\ell_p$ Regression

David Woodruff, Taisuke Yasuda

#12271

InterLUDE: Interactions between Labeled and Unlabeled Data to Enhance Semi-Supervised Learning

Zhe Huang, Xiaowei Yu, Dajiang Zhu et al.

ICML 2024arXiv:2403.10658

#12272

Position: Will we run out of data? Limits of LLM scaling based on human-generated data

Pablo Villalobos, Anson Ho, Jaime Sevilla et al.

#12273

Towards Efficient Training and Evaluation of Robust Models against $l_0$ Bounded Adversarial Perturbations

Xuyang Zhong, Yixiao HUANG, Chen Liu

#12274

Interplay of ROC and Precision-Recall AUCs: Theoretical Limits and Practical Implications in Binary Classification

Martin Mihelich, François Castagnos, Charles Dognin

#12275

An Explicit Frame Construction for Normalizing 3D Point Clouds

Justin Baker, Shih-Hsin Wang, Tommaso de Fernex et al.

#12276

Hierarchical Novelty Detection via Fine-Grained Evidence Allocation

Spandan Pyakurel, Qi Yu

#12277

Sampling-based Multi-dimensional Recalibration

Youngseog Chung, Ian Char, Jeff Schneider

#12278

Switching the Loss Reduces the Cost in Batch Reinforcement Learning

Alex Ayoub, Kaiwen Wang, Vincent Liu et al.

#12279

Learning Optimal Projection for Forecast Reconciliation of Hierarchical Time Series

Asterios Tsiourvas, Wei Sun, Georgia Perakis et al.

#12280

A Study of First-Order Methods with a Deterministic Relative-Error Gradient Oracle

Nadav Hallak, Kfir Levy

#12281

Position: LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks

Subbarao Kambhampati, Karthik Valmeekam, Lin Guan et al.

#12282

New Sample Complexity Bounds for Sample Average Approximation in Heavy-Tailed Stochastic Programming

Hongcheng Liu, Jindong Tong

#12283

Efficient Value Iteration for s-rectangular Robust Markov Decision Processes

Navdeep Kumar, Kaixin Wang, Kfir Levy et al.

#12284

Large Scale Dataset Distillation with Domain Shift

Noel Loo, Alaa Maalouf, Ramin Hasani et al.

#12285

Feature Reuse and Scaling: Understanding Transfer Learning with Protein Language Models

Francesca-Zhoufan Li, Ava Amini, Yisong Yue et al.

#12286

Parameter-Dependent Competitive Analysis for Online Capacitated Coverage Maximization through Boostings and Attenuations

Pan Xu

ICML 2024arXiv:2405.02952

#12287

Accelerating Legacy Numerical Solvers by Non-intrusive Gradient-based Meta-solving

Sohei Arisaka, Qianxiao Li

#12288

Promoting External and Internal Equities Under Ex-Ante/Ex-Post Metrics in Online Resource Allocation

Karthik Abinav Sankararaman, Aravind Srinivasan, Pan Xu

#12289

GiLOT: Interpreting Generative Language Models via Optimal Transport

Xuhong Li, Jiamin Chen, Yekun Chai et al.

ICML 2024arXiv:2305.18485

#12290

Autoencoding Conditional Neural Processes for Representation Learning

Victor Prokhorov, Ivan Titov, Siddharth N

#12291

LLM Maybe LongLM: SelfExtend LLM Context Window Without Tuning

Hongye Jin, Xiaotian Han, Jingfeng Yang et al.

#12292

Position: Automatic Environment Shaping is the Next Frontier in RL

Younghyo Park, Gabriel Margolis, Pulkit Agrawal

#12293

BLO-SAM: Bi-level Optimization Based Finetuning of the Segment Anything Model for Overfitting-Preventing Semantic Segmentation

Li Zhang, Youwei Liang, Ruiyi Zhang et al.

#12294

Data-free Neural Representation Compression with Riemannian Neural Dynamics

Zhengqi Pei, Anran Zhang, Shuhui Wang et al.

#12295

Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining

Florian Tramer, Gautam Kamath, Nicholas Carlini

#12296

Leverage Class-Specific Accuracy to Guide Data Generation for Improving Image Classification

Jay Gala, Pengtao Xie

#12297

Can Gaussian Sketching Converge Faster on a Preconditioned Landscape?

Yilong Wang, Haishan Ye, Guang Dai et al.

#12298

Efficient Precision and Recall Metrics for Assessing Generative Models using Hubness-aware Sampling

Yuanbang Liang, Jing Wu, Yu-Kun Lai et al.

#12299

Causal Inference out of Control: Estimating Performativity without Treatment Randomization

Gary Cheng, Moritz Hardt, Celestine Mendler-Dünner

#12300

Overcoming the Optimizer's Curse: Obtaining Realistic Prescriptions from Neural Networks

Asterios Tsiourvas, Georgia Perakis

#12301

Ameliorate Spurious Correlations in Dataset Condensation

Jiaxing Cui, Ruochen Wang, Yuanhao Xiong et al.

ICML 2024arXiv:2407.04075

#12302

Sparsest Models Elude Pruning: An Exposé of Pruning’s Current Capabilities

Stephen Zhang, Vardan Papyan

#12303

Regularized Q-learning through Robust Averaging

Peter Schmitt-Förster, Tobias Sutter

ICML 2024arXiv:2405.02201

#12304

Unsupervised Parameter-free Simplicial Representation Learning with Scattering Transforms

Hiren Madhu, Sravanthi Gurugubelli, Sundeep Prabhakar Chepuri

#12305

How do Transformers Perform In-Context Autoregressive Learning ?

Michael Sander, Raja Giryes, Taiji Suzuki et al.

#12306

Vision Transformers as Probabilistic Expansion from Learngene

Qiufeng Wang, Xu Yang, Haokun Chen et al.

#12307

QBMK: Quantum-based Matching Kernels for Un-attributed Graphs

Lu Bai, Lixin Cui, Ming Li et al.

#12308

Modeling Language Tokens as Functionals of Semantic Fields

Zhengqi Pei, Anran Zhang, Shuhui Wang et al.

ICML 2024arXiv:2404.07864

#12309

Inferring Change Points in High-Dimensional Linear Regression via Approximate Message Passing

Gabriel Arpino, Xiaoqi Liu, Ramji Venkataramanan

#12310

Score-Based Causal Discovery of Latent Variable Causal Models

Ignavier Ng, Xinshuai Dong, Haoyue Dai et al.

#12311

Reward Shaping for Reinforcement Learning with An Assistant Reward Agent

Haozhe Ma, Kuankuan Sima, Thanh Vinh Vo et al.

ICML 2024arXiv:2402.05330

#12312

Classification under Nuisance Parameters and Generalized Label Shift in Likelihood-Free Inference

Luca Masserano, Alexander Shen, Michele Doro et al.

#12313

Position: Technical Research and Talent is Needed for Effective AI Governance

Anka Reuel, Lisa Soder, Benjamin Bucknall et al.

#12314

Dirichlet Flow Matching with Applications to DNA Sequence Design

Hannes Stärk, Bowen Jing, Chenyu Wang et al.

#12315

Fast Sampling-Based Sketches for Tensors

William Swartworth, David Woodruff

#12316

Enhancing Value Function Estimation through First-Order State-Action Dynamics in Offline Reinforcement Learning

Yun-Hsuan Lien, Ping-Chun Hsieh, Tzu-Mao Li et al.

#12317

Diffusion Models Encode the Intrinsic Dimension of Data Manifolds

Jan Stanczuk, Georgios Batzolis, Teo Deveney et al.

#12318

R2E: Turning any Github Repository into a Programming Agent Environment

Naman Jain, Manish Shetty Molahalli, Tianjun Zhang et al.

#12319

Two Fists, One Heart: Multi-Objective Optimization Based Strategy Fusion for Long-tailed Learning

Zhe Zhao, Pengkun Wang, HaiBin Wen et al.

#12320

Balancing Feature Similarity and Label Variability for Optimal Size-Aware One-shot Subset Selection

Abhinab Acharya, Dayou Yu, Qi Yu et al.

#12321

Data-free Distillation of Diffusion Models with Bootstrapping

Jiatao Gu, Chen Wang, Shuangfei Zhai et al.

#12322

Generalization Analysis of Deep Non-linear Matrix Completion

Antoine Ledent, Rodrigo Alves

#12323

Decentralized Convex Finite-Sum Optimization with Better Dependence on Condition Numbers

Yuxing Liu, Lesi Chen, Luo Luo