【Qwen_0.5b__GRPO：一个基于Qwen-0.5b模型的数学推理训练项

爱生活爱珂珂 2025-02-05 08:37:10

【Qwen_0.5b__GRPO：一个基于Qwen-0.5b模型的数学推理训练项目，专为解决数学问题而设计。亮点：1. 使用强化学习（RL）训练，提升模型的推理能力；2. 支持vllm加速，训练速度提升显著；3. 针对gsm8k数学数据集优化，准确率更高】

'Qwen 0.5b on GRPO: Training a small math reasoner with RL'

0 阅读：0

猜你喜欢

印度数学竞赛题：题目如图所示，解一元五次方程。怎么用同构的方法来接方程呢？[

印度数学竞赛题：题目如图所示，解一元五次方程。怎么用同构的方法来接方程呢？[

数学函数

数学系的学生能硬核到什么程度?

数学系的学生能硬核到什么程度?

【14评论】

数学

小某书现在被架在火山上烤了。美国人把数学作业发到上面，马上就得到了正确答案。于

小某书现在被架在火山上烤了。美国人把数学作业发到上面，马上就得到了正确答案。于

【810评论】

火山数学

“这题难度不大，但正确率不足5%！”大量孩子没能做出来，只因找不出阴影图形周长与

“这题难度不大，但正确率不足5%！”大量孩子没能做出来，只因找不出阴影图形周长与

数学

为什么学不好数学因为你像看小说那样看数学书数学书不是故事书仅知道个大概表

为什么学不好数学因为你像看小说那样看数学书数学书不是故事书仅知道个大概表

数学

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

晚安～ [月亮]

2

《爱可可微博热门分享(2.3)》

3

【[362星]rav1d：一个用Rust编写的AV1解码器，为视频解码带来极致性

4

【[21星]RaySplatting：基于光线追踪的高斯点绘制技术，让3D渲染更

5

【[92星]Imagine360：从普通视角生成沉浸式360°视频的神奇工具。亮

6

【[110星]CUDA_Kernel_Samples：用代码写成的CUDA算子面

7

【[346星]Call Center AI：用AI赋能呼叫中心，让电话客服更智能

8

【RL_Reasoning_Writing_GRPO_on_base：基于强化学

9

【MIT 6.0002课程：计算思维与数据科学导论。为初学者提供零基础的计算思维

10

【Open-R1：开源社区携手复现DeepSeek R1的训练管线和数据集。亮点

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

为什么央视不让苹果露出？在2024年春晚上，有一个细节值得注意，陈奕迅使用的

2

有点想换手机的冲动了

3

小米要破万亿市值了？太猛了，美国关税的情况下，小米都能猛涨[并不简单][加油]

4

多平台宣布上线DeepSeek大模型：腾讯云、阿里云、华为云、360、亚马逊A

5

据外网消息透露，三星将于2月7日为GalaxyS25系列推送一个巨大的固件更新

6

马斯克才是2025最大的冤种！马斯克大选花了2.9亿美元，最后得了个弼马温的职位

7

荣耀手机哪几款比较值得入手？相信下面这4款一定不会让你失望。荣耀X60Pro

8

如果不是国补以后手机销量排名出来！多少人都蒙在鼓里，说句实话没有这个榜单，你永远

9

以前都是华为压荣耀一头，现在变了，荣耀和华为的差距在拉大先不看价格上的100

10

DeepSeek被意大利强制下架后，意方要求DeepSeek交代1300万欧洲用

科技最新文章

1

国补降价最狠的4款手机！嗯认同哪一款？1.荣耀Magic7，发布价4999，

2

荣耀手机哪几款比较值得入手？相信下面这4款一定不会让你失望。荣耀X60Pro

3

终于轮到谷歌了！最新消息，我们以违反反垄断法立案调查谷歌公司。我觉得这很可能对美

4

卢伟想把DeepSeek商标转让给美国公司，用美国法律保护他不被东方大国法律制裁

5

多平台宣布上线DeepSeek大模型：腾讯云、阿里云、华为云、360、亚马逊A

6

周鸿祎还是敢说实话的，不怕得罪人，友商确实还在疯狂挖人，DeepSeek挺住！抵

7

左边：三星GalaxyS25Ultra右边：三星GalaxyS24Ult

8

DeepSeek被意大利强制下架后，意方要求DeepSeek交代1300万欧洲用

9

看到春晚主持人和明星们举起的手机，库克在笑，苹果在笑，几乎清一色的苹果手机，这一

10

2024年全球手机销量TOP10NO.1.三星：韩国，销量约2.5亿部