辅导男朋友转算法岗第35天|后训练

奔跑的跳跳 2024-09-19 13:13:27
llama的技术报告将近100页,其中可以盘的内容还是很多的,今天来盘一盘后训练吧! 后训练策略主要包括拒绝采样、SFT、DPO。 模型的代码能力是如何加强的、数学和推理能力是如何发挥的、长文本是如何实现的,一起来看看细节吧![萌萌哒R]

0 阅读:0