魔女团新闻

辅导男朋友转算法岗第33天｜PPO

奔跑的跳跳 2024-09-09 01:51:13

今天介绍dpo的前身，ppo。在ppo之前介绍的policy iteration，蒙特卡洛方法等都是基于表格的方法，也就是要列举出每个状态下的奖励和行动。ppo则是将策略和奖励都拟合成函数，通过深度学习的方式更新策略模型，保持策略更新稳定的同时，提高策略的探索性。

0 阅读：0