总觉得把 RL 翻译成「强化学习」,追求了准确,但理解门槛要比「模仿学习」这种的要高。
如果把 RL 翻译成「反馈学习」——无论是奖励还是惩罚,都是与环境的互动中得到反馈,来进一步调整行为,会不会更好理解一点?
真的不是郑小康
感谢大家的关注
作者最新文章
热门分类
汽车TOP
汽车最新文章