开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

上小学 · 2023年04月22日

FRM1数学统计强化课222页小老鼠在0,1的基础上下一步的value怎么写?谢谢

还是理解不了计算value的公式,希望写下,1的基础上下一步获得价值怎么计算?第一步都是零,计算也无所谓哪个项目,对错也不知道。

1 个答案

李坏_品职助教 · 2023年04月22日

嗨,从没放弃的小努力你好:


初始的Q table所有状态下都是0,但是在小老鼠第一次向右走了之后,Q table需要进行更新。


根据Q值的计算公式:

所以对于小老鼠向右走了一步之后,新的Q值应该是:Q_new(start, →) = Q_old(start, →) + α * [R + γ*V(S') - Q_old(start, →)],

这里:

Q_old就是初始状态下的Q值(初始的Q table的所有Q值都是0),

α是学习效率,默认为0.1或0.05(何老师的板书默认为0.1),

R是向右走一步带来的短期奖励1,

γ是折现因子0.9(何老师直接定为0.9),

V(S')是初始Q table里面最大的Q值,也就是0.


所以Q_new(start, →) = Q_old(start, →) + α * [R + γ*V(S') - Q_old(start, →)]

= 0+0.1 * [1 + 0.9*0 - 0] = 0.1.

----------------------------------------------
就算太阳没有迎着我们而来,我们正在朝着它而去,加油!

  • 1

    回答
  • 0

    关注
  • 240

    浏览
相关问题