【Qwen_0.5b__GRPO:一个基于Qwen-0.5b模型的数学推理训练项目,专为解决数学问题而设计。亮点:1. 使用强化学习(RL)训练,提升模型的推理能力;2. 支持vllm加速,训练速度提升显著;3. 针对gsm8k数学数据集优化,准确率更高】
'Qwen 0.5b on GRPO: Training a small math reasoner with RL'
【Qwen_0.5b__GRPO:一个基于Qwen-0.5b模型的数学推理训练项目,专为解决数学问题而设计。亮点:1. 使用强化学习(RL)训练,提升模型的推理能力;2. 支持vllm加速,训练速度提升显著;3. 针对gsm8k数学数据集优化,准确率更高】
'Qwen 0.5b on GRPO: Training a small math reasoner with RL'
作者最新文章
热门分类
科技TOP
科技最新文章