【[111星]Crawl4LLM:高效的网络爬取框架,旨在解决当前LLM预训

爱生活爱珂珂 2025-02-21 08:24:25

【[111星]Crawl4LLM:高效的网络爬取框架,旨在解决当前 LLM 预训练数据爬取效率低下的问题。CRAW4LLM 通过优先爬取对 LLM 预训练更有影响力的网页,显著提升了数据质量和爬取效率,并减少了不必要的网络资源消耗。亮点:1. 高效筛选有价值文档,提升数据质量;2. 支持多种评分方法,灵活定制爬取策略;3. 配置简单,轻松上手】

'Crawl4LLM: Efficient Web Crawling for LLM Pretraining'

GitHub: github.com/cxcscmu/Crawl4LLM

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注