【nano-sparse-attention:一个教育性的稀疏注意力机制实现库,专注于LLM推理的优化。提供纯PyTorch实现的多种稀疏注意力模式,包括Local Window、Attention Sinks、SnapKV等,支持预填充和生成两个阶段。通过详细的Jupyter notebook教程和可视化工具,帮助用户理解和实验不同的注意力模式】
'The simplest implementation of recent Sparse Attention patterns for efficient LLM inference'
GitHub: github.com/PiotrNawrot/nano-sparse-attention