魔女团新闻

首页
科技

辅导男朋友转算法岗第32天｜DPO

奔跑的跳跳 2024-09-08 17:33:36

终于到DPO了，谁懂！基于人类反馈的强化学习RLHF分三个阶段：SFT、奖励模型（RM）、强化学习（PPO）。但是PPO复杂且不稳定，因此现实场景下多使用DPO：不依赖于明确的奖励建模或者强化学习，通过直接优化用户的偏好反馈来提高策略的表现。 [睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R][睡觉R] AAAI赶不上了，ICASSP启动！