【[370星]simple_GRPO：一个简单的GRPO（Generative

爱生活爱珂珂 2025-02-19 21:19:36

【[370星]simple_GRPO：一个简单的 GRPO（Generative Reinforcement Learning for Policy Optimization）实现，旨在复现类似 r1 的大型语言模型（LLM）思维过程。亮点：1. 仅200行代码，依赖极少，快速上手；2. 分离式参考模型，可在不同GPU上运行，节省显存；3. 1小时内完成训练，快速观察到模型的“顿悟时刻”】

'A very simple GRPO implement for reproducing r1-like LLM thinking.'

GitHub: github.com/lsdefine/simple_GRPO

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【Knowledge Distillation Tutorial：PyTorch

2

【Model Distillation：OpenAI官方的模型蒸馏指南。模型蒸馏

3

【[1.5k星]Kokoro-FastAPI：基于 Docker 的 FastA

4

【深度解读：「强化学习+测试时计算」可能是实现通用人工智能 (AGI) 最可行路

5

【[73星]Duck-UI：一个高性能的DuckDB Web交互界面，让你在浏览

6

【UAVs_Meet_LLMs：无人机与大语言模型的完美邂逅，开启低空智能移动新

7

【mmE5：通过高质量合成数据提升多模态多语言嵌入性能的创新项目。亮点：1. 提

8

【[2.1k星]Paperless-AI：为Paperless-ngx用户提供自

9

【[170星]Skies-ADSB：将你的浏览器变成实时3D空中交通显示器，用低

10

【深度强化学习的现状与挑战。亮点：1. 深入剖析深度强化学习在样本效率、奖励设计

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

为什么央视不让苹果露出？在2024年春晚上，有一个细节值得注意，陈奕迅使用的

2

京东首个为外卖小哥上社保刘强东成给外卖骑手上社保第一人东哥进军外卖，要给

3

iPhone17系列将采用LTPO屏幕也就是说，标准版iPhone终于要放弃6

4

马斯克自曝死亡:凌晨3:00马斯克在自家的推特上预告死亡：有一些人想搞死我！随

5

小米要破万亿市值了？太猛了，美国关税的情况下，小米都能猛涨[并不简单][加油]

6

不同人群都用什么手机？

7

多平台宣布上线DeepSeek大模型：腾讯云、阿里云、华为云、360、亚马逊A

8

三星GalaxyS25系列价格公布，老样子比先锋版低500。S25，12+25

9

2025年几乎零差评的几款手机！你认同哪一款？1.Magic72.OPPO

10

据外网消息透露，三星将于2月7日为GalaxyS25系列推送一个巨大的固件更新

科技最新文章

1

【#中国空间站首个舱内在轨机器人试验#来了！】#这款机器人在空间站接受测评#新年

2

美团王兴出手了：你敢抢我生意，我就掀你桌子！京东5月1日前入驻的商家全年免佣金，

3

美团和京东大战最大的输家已经出现了！既不是美团，也不是京东，而是躲在角落

4

iPhone17系列将采用LTPO屏幕也就是说，标准版iPhone终于要放弃6

5

波兰发布世界首个双足肌肉骨骼机器人有点过于惊悚了，这哪像机器人，倒是挺像木乃伊

6

老爸用了5年的手机最近很卡，然后我妈给他在网上买了个小米k80，拿到手机后我妈突

7

一个好消息，一个坏消息。好消息是国内接入deepseek的企业超过100家，坏消

8

京东为外卖骑手缴纳五险一金其实外卖员也是高危工作者不管是刮风下雨下雪什么恶

9

京东：宣布为外卖骑手缴纳五险一金美团：不好，他冲我来的...

10

京东为外卖骑手缴纳五险一金京东为外卖骑手缴五险一金五险一金指的是什么，缴纳