魔女团新闻
首页
推荐
军事
NBA
体育
社会
明星八卦
娱乐
财经
科技
汽车
历史
国际
游戏
动漫
公益
搞笑
商业
互联网
数码
国际足球
健康
房产
家居
电影
星座
旅游
健身
时尚
科学探索
职场
育儿
股票
教育
影视
情感
热点
首页
科技
辅导男朋友转算法岗第29天|强化学习3
奔跑的跳跳
2024-09-08 17:34:45
🐤之前介绍的求解贝尔曼方程的方法,都假设模型和环境属性都是已知的。 🐤今天介绍两种基于采样的方法,可以在不知道模型和环境属性的条件下进行强化学习。 🐤蒙特卡洛方法通过在多次模拟中取样并计算平均奖励来估计状态值或动作值,无需知道环境的模型。 🐤时序差分方法结合了蒙特卡洛方法和动态规划,通过一步更新来估计值函数,同时利用经验(样本)和估计(预测)来加速学习。 🐤🐤🐤🐤🐤🐤🐤🐤🐤🐤🐤🐤🐤 铺垫这么多都是为了后面的PPO和DPO做准备!我学!
0
阅读:0
奔跑的跳跳
简介:感谢大家的关注
热门分类
推荐
军事
NBA
体育
社会
明星八卦
娱乐
财经
科技
汽车
历史
国际
游戏
动漫
公益
搞笑
商业
互联网
数码
国际足球
健康
房产
家居
电影
星座
旅游
健身
时尚
科学探索
职场
育儿
股票
教育
影视
情感
热点