- 深度强化学习核心算法与应用
- 陈世勇 苏博览 杨敬文编著
- 97字
- 2025-04-08 08:48:59
1.3 值函数
从回报出发,我们可以进一步定义在某个状态s可以获得的长期回报的期望值,这个值通常被称为状态值函数(V值):

而在某个状态s做动作a可以获得的长期回报的期望值,通常被称为动作值函数(Q值):

从回报出发,我们可以进一步定义在某个状态s可以获得的长期回报的期望值,这个值通常被称为状态值函数(V值):
而在某个状态s做动作a可以获得的长期回报的期望值,通常被称为动作值函数(Q值):