【强化学习环境】TSP问题强化学习环境搭建

您所在的位置:网站首页 TSP问题代码 【强化学习环境】TSP问题强化学习环境搭建

【强化学习环境】TSP问题强化学习环境搭建

2023-07-12 23:01| 来源: 网络整理| 查看: 265

【强化学习】MuZero 训练CartPole-v1

土豆大番薯: 谢谢指导!

【强化学习】MuZero 训练CartPole-v1

昵称已被吞噬~‘(*@﹏@*)’~: 把表征网络representation输入是(210,160,3),输出是编码状态(这个编码成什么自己定),然后是动态网络(dynamics),输入是编码状态和前一时刻所执行动作编码的组合,输出是一个reward和编码状态(注意编码状态的shape和之前的一样),最后是预测网络(prediction),输入是编码状态,输出是policy和value。 其实我这个写的版本相较于原论文有简化,我这里只使用了一步td,而且原论文输出的reward和我这也不一样,主要是cartpole任务简单,只相当于个代码学习,所以你不看代码真的挺可惜的,而且你要做Atari任务你可能算力会不够,按照原论文的模型结构我之前试过个人电脑根本跑不了,所以你不如把代码读一遍(而且我写的也不好,有错误欢迎指正),比直接复制下来跑收获会更多。

【强化学习】MuZero 训练CartPole-v1

土豆大番薯: 具体要怎么改呀,我只看得懂里面有一个linner_model,包含了三个模型,但不知道怎么改表情包

【强化学习】MuZero 训练CartPole-v1

昵称已被吞噬~‘(*@﹏@*)’~: 你没有改模型吧,把 cartpole_v1_model.py 里的模型改成卷积模型

【强化学习】MuZero 训练CartPole-v1

土豆大番薯: ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type numpy.ndarray).



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3