【RL_Reasoning_Writing_GRPO_on_base:基于强化学习的诗歌创作模型训练项目。亮点:1. 使用350M参数的多语言基础模型Pleias-350m,无需指令微调即可生成诗歌;2. 通过GRPO方法优化生成效果,避免重复和提升诗歌结构;3. 支持多种语言的诗歌创作,展现强大的跨语言能力】
'RL, Reasoning & Writing: GRPO on Base model'
【RL_Reasoning_Writing_GRPO_on_base:基于强化学习的诗歌创作模型训练项目。亮点:1. 使用350M参数的多语言基础模型Pleias-350m,无需指令微调即可生成诗歌;2. 通过GRPO方法优化生成效果,避免重复和提升诗歌结构;3. 支持多种语言的诗歌创作,展现强大的跨语言能力】
'RL, Reasoning & Writing: GRPO on Base model'
作者最新文章
热门分类
科技TOP
科技最新文章