【Qwen_0.5b__GRPO:一个基于Qwen-0.5b模型的数学推理训练项

爱生活爱珂珂 2025-02-05 08:37:10

【Qwen_0.5b__GRPO:一个基于Qwen-0.5b模型的数学推理训练项目,专为解决数学问题而设计。亮点:1. 使用强化学习(RL)训练,提升模型的推理能力;2. 支持vllm加速,训练速度提升显著;3. 针对gsm8k数学数据集优化,准确率更高】

'Qwen 0.5b on GRPO: Training a small math reasoner with RL'

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注