Dimitris Papailiopoulos

22

Papers

207

Total Citations

1

Affiliations

Affiliations

University of Wisconsin-Madison

Papers (22)

Teaching Arithmetic to Small Transformers

Cyclades: Conflict-free Asynchronous Machine Learning

NeurIPS 2016arXiv

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

Extrapolation by Association: Length Generalization Transfer In Transformers

NeurIPS 2025arXiv

Orthogonal NMF through Subspace Exploration

Parallel Correlation Clustering on Big Graphs

CHAI: Clustered Head Attention for Efficient LLM Inference

Can Mamba Learn How To Learn? A Comparative Study on In-Context Learning Tasks

Sparse PCA via Bipartite Matchings

Rare Gems: Finding Lottery Tickets at Initialization

Dissecting Chain-of-Thought: Compositionality through In-Context Filtering and Learning

Stability and Generalization of Learning Algorithms that Converge to Global Optima

DRACO: Byzantine-resilient Distributed Training via Redundant Gradients

Does Data Augmentation Lead to Positive Margin?

ATOMO: Communication-efficient Learning via Atomic Sparsification

The Effect of Network Width on the Performance of Large-batch Training

DETOX: A Redundancy-based Framework for Faster and More Robust Gradient Aggregation

Optimal Lottery Tickets via Subset Sum: Logarithmic Over-Parameterization is Sufficient

Bad Global Minima Exist and SGD Can Reach Them

Attack of the Tails: Yes, You Really Can Backdoor Federated Learning

An Exponential Improvement on the Memorization Capacity of Deep Threshold Networks

LIFT: Language-Interfaced Fine-Tuning for Non-language Machine Learning Tasks