Daniel Hsu

4

Papers

0

Total Citations

Papers (4)

Fast attention mechanisms: a tale of parallelism

NeurIPS 2025arXiv

Multi-group Learning for Hierarchical Groups

Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot

Transformers, parallel computation, and logarithmic depth