辅导男朋友转算法岗第25天|强化学习2

奔跑的跳跳 2024-09-08 17:34:11
前边的笔记介绍了强化学习中的Bellman⽅程,提到求解Bellman⽅程⼀般采⽤policy iteration,今天就来学习怎么⽤迭代法求解Bellman⽅程的最优解。

0 阅读:0