R1 的论文里也提到,使用R1-Zero 相同方法训练的 Qwen-32B-Zero 效果比不上 SFT 后的效果。而R1-Zero 效果却接近 R1。 RL 还是适合基座模型能力较强(100B+模型)的范式,小模型用蒸馏学习就很好。 gpt4 程序员 软件开发 计算机
R1的论文里也提到,使用R1-Zero相同方法训练的Qwen-32B-Ze
JavaEdge聊AIss
2025-02-10 23:06:37
0
阅读:0