辅导男朋友转算法岗第33天|PPO

奔跑的跳跳 2024-09-09 01:51:13
今天介绍dpo的前身,ppo。在ppo之前介绍的policy iteration,蒙特卡洛方法等都是基于表格的方法,也就是要列举出每个状态下的奖励和行动。ppo则是将策略和奖励都拟合成函数,通过深度学习的方式更新策略模型,保持策略更新稳定的同时,提高策略的探索性。

0 阅读:0