Sanjiv Kumar

11

Papers

247

Total Citations

Papers (11)

Think before you speak: Training Language Models With Pause Tokens

Two-stage LLM Fine-tuning with Less Specialization and More Generalization

LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization

Spark Transformer: Reactivating Sparsity in Transformer FFN and Attention

Analyzing Similarity Metrics for Data Selection for Language Model Pretraining

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

MarkovGen: Structured Prediction for Efficient Text-to-Image Generation

Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines

Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning?

USTAD: Unified Single-model Training Achieving Diverse Scores for Information Retrieval

Tandem Transformers for Inference Efficient LLMs