麻烦老师提供详细解析过程,谢谢!
pzqa27 · 2024年10月30日
嗨,爱思考的PZer你好:
这个题解法跟基础班里的例题一摸一样,并且这个题解析已经写的很详细了,题目要用强化学习来找一个价格,并且要求maximize profit和minimize inventory risk,
对于蒙特卡洛模拟的方法来说
MC: Qnew=Qold+α(R-Qold)
对于TD方法来说
Qnew=Qold+α(R+γQ(S,A))
然后算一算得到结果如下图
然后就可以直接选出A了,这个属于带公式直接算的题目。
----------------------------------------------虽然现在很辛苦,但努力过的感觉真的很好,加油!