1.3 值函数_深度强化学习核心算法与应用-QQ阅读女生现言网

书名：深度强化学习核心算法与应用
作者名：陈世勇苏博览杨敬文编著
本章字数：97字
更新时间：2025-04-08 08:48:59

1.3　值函数

从回报出发，我们可以进一步定义在某个状态s可以获得的长期回报的期望值，这个值通常被称为状态值函数（V值）：

而在某个状态s做动作a可以获得的长期回报的期望值，通常被称为动作值函数（Q值）：

上一章目录下一章