魔女团新闻

辅导男朋友转算法岗第25天｜强化学习2

奔跑的跳跳 2024-09-08 17:34:11

前边的笔记介绍了强化学习中的Bellman⽅程，提到求解Bellman⽅程⼀般采⽤policy iteration，今天就来学习怎么⽤迭代法求解Bellman⽅程的最优解。

0 阅读：0