1.3 值函数

从回报出发,我们可以进一步定义在某个状态s可以获得的长期回报的期望值,这个值通常被称为状态值函数(V值):

而在某个状态s做动作a可以获得的长期回报的期望值,通常被称为动作值函数(Q值):