总觉得把RL翻译成「强化学习」,追求了准确,但理解门槛要比「模仿学习」这种的

真的不是郑小康 2025-01-20 17:45:06

总觉得把 RL 翻译成「强化学习」,追求了准确,但理解门槛要比「模仿学习」这种的要高。

如果把 RL 翻译成「反馈学习」——无论是奖励还是惩罚,都是与环境的互动中得到反馈,来进一步调整行为,会不会更好理解一点?

0 阅读:1
真的不是郑小康

真的不是郑小康

感谢大家的关注