辅导男朋友转算法岗第29天｜强化学习3

🐤之前介绍的求解贝尔曼方程的方法，都假设模型和环境属性都是已知的。 🐤今天介绍两种基于采样的方法，可以在不知道模型和环境属性的条件下进行强化学习。 🐤蒙特卡洛方法通过在多次模拟中取样并计算平均奖励来估计状态值或动作值，无需知道环境的模型。 🐤时序差分方法结合了蒙特卡洛方法和动态规划，通过一步更新来估计值函数，同时利用经验（样本）和估计（预测）来加速学习。 🐤🐤🐤🐤🐤🐤🐤🐤🐤🐤🐤🐤🐤 铺垫这么多都是为了后面的PPO和DPO做准备！我学！