R1的论文里也提到,使用R1-Zero相同方法训练的Qwen-32B-Ze

JavaEdge聊AIss 2025-02-10 23:06:37

R1 的论文里也提到,使用R1-Zero 相同方法训练的 Qwen-32B-Zero 效果比不上 SFT 后的效果。而R1-Zero 效果却接近 R1。 RL 还是适合基座模型能力较强(100B+模型)的范式,小模型用蒸馏学习就很好。 gpt4 程序员 软件开发 计算机

0 阅读:0
JavaEdge聊AIss

JavaEdge聊AIss

感谢大家的关注