【[111星]Crawl4LLM:高效的网络爬取框架,旨在解决当前 LLM 预训练数据爬取效率低下的问题。CRAW4LLM 通过优先爬取对 LLM 预训练更有影响力的网页,显著提升了数据质量和爬取效率,并减少了不必要的网络资源消耗。亮点:1. 高效筛选有价值文档,提升数据质量;2. 支持多种评分方法,灵活定制爬取策略;3. 配置简单,轻松上手】
'Crawl4LLM: Efficient Web Crawling for LLM Pretraining'
GitHub: github.com/cxcscmu/Crawl4LLM