【RL_Reasoning_Writing_GRPO_on_base：基于强化学

爱生活爱珂珂 2025-02-03 11:31:49

【RL_Reasoning_Writing_GRPO_on_base：基于强化学习的诗歌创作模型训练项目。亮点：1. 使用350M参数的多语言基础模型Pleias-350m，无需指令微调即可生成诗歌；2. 通过GRPO方法优化生成效果，避免重复和提升诗歌结构；3. 支持多种语言的诗歌创作，展现强大的跨语言能力】

'RL, Reasoning & Writing: GRPO on Base model'

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

晚安～ [月亮]

2

《爱可可微博热门分享(2.3)》

3

【[362星]rav1d：一个用Rust编写的AV1解码器，为视频解码带来极致性

4

【[21星]RaySplatting：基于光线追踪的高斯点绘制技术，让3D渲染更

5

【[92星]Imagine360：从普通视角生成沉浸式360°视频的神奇工具。亮

6

【[110星]CUDA_Kernel_Samples：用代码写成的CUDA算子面

7

【[346星]Call Center AI：用AI赋能呼叫中心，让电话客服更智能

8

【RL_Reasoning_Writing_GRPO_on_base：基于强化学

9

【MIT 6.0002课程：计算思维与数据科学导论。为初学者提供零基础的计算思维

10

【Open-R1：开源社区携手复现DeepSeek R1的训练管线和数据集。亮点

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

为什么央视不让苹果露出？在2024年春晚上，有一个细节值得注意，陈奕迅使用的

2

有点想换手机的冲动了

3

小米要破万亿市值了？太猛了，美国关税的情况下，小米都能猛涨[并不简单][加油]

4

多平台宣布上线DeepSeek大模型：腾讯云、阿里云、华为云、360、亚马逊A

5

据外网消息透露，三星将于2月7日为GalaxyS25系列推送一个巨大的固件更新

6

马斯克才是2025最大的冤种！马斯克大选花了2.9亿美元，最后得了个弼马温的职位

7

荣耀手机哪几款比较值得入手？相信下面这4款一定不会让你失望。荣耀X60Pro

8

如果不是国补以后手机销量排名出来！多少人都蒙在鼓里，说句实话没有这个榜单，你永远

9

以前都是华为压荣耀一头，现在变了，荣耀和华为的差距在拉大先不看价格上的100

10

iPhone16和三星GalaxyS25对比:为什么三星S25领先这么多，但是

科技最新文章

1

国补降价最狠的4款手机！嗯认同哪一款？1.荣耀Magic7，发布价4999，

2

荣耀手机哪几款比较值得入手？相信下面这4款一定不会让你失望。荣耀X60Pro

3

终于轮到谷歌了！最新消息，我们以违反反垄断法立案调查谷歌公司。我觉得这很可能对美

4

卢伟想把DeepSeek商标转让给美国公司，用美国法律保护他不被东方大国法律制裁

5

多平台宣布上线DeepSeek大模型：腾讯云、阿里云、华为云、360、亚马逊A

6

周鸿祎还是敢说实话的，不怕得罪人，友商确实还在疯狂挖人，DeepSeek挺住！抵

7

左边：三星GalaxyS25Ultra右边：三星GalaxyS24Ult

8

DeepSeek被意大利强制下架后，意方要求DeepSeek交代1300万欧洲用

9

看到春晚主持人和明星们举起的手机，库克在笑，苹果在笑，几乎清一色的苹果手机，这一

10

2024年全球手机销量TOP10NO.1.三星：韩国，销量约2.5亿部