【Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、Wi

爱生活爱珂珂 2024-11-21 14:03:29

【Evalchemy:一个强大的语言模型评测框架,统一整合了MTBench、WildBench、RepoBench等多个基准测试,支持多GPU并行评估和大模型分布式评测。特色包括统一安装部署、并行评估、标准化输出格式和可选的数据库集成,可用于全面评估指令微调模型的性能】

'Automatic Evals for Instruction-Tuned Models'

GitHub: github.com/mlfoundations/evalchemy

0 阅读:1