【RL_Reasoning_Writing_GRPO_on_base:基于强化学

爱生活爱珂珂 2025-02-03 11:31:49

【RL_Reasoning_Writing_GRPO_on_base:基于强化学习的诗歌创作模型训练项目。亮点:1. 使用350M参数的多语言基础模型Pleias-350m,无需指令微调即可生成诗歌;2. 通过GRPO方法优化生成效果,避免重复和提升诗歌结构;3. 支持多种语言的诗歌创作,展现强大的跨语言能力】

'RL, Reasoning & Writing: GRPO on Base model'

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注