【强化学习环境】TSP问题强化学习环境搭建

您所在的位置：网站首页 › TSP问题代码 › 【强化学习环境】TSP问题强化学习环境搭建

【强化学习环境】TSP问题强化学习环境搭建

2023-07-12 23:01| 来源: 网络整理| 查看: 265

【强化学习】MuZero 训练CartPole-v1

土豆大番薯: 谢谢指导！

【强化学习】MuZero 训练CartPole-v1

昵称已被吞噬~‘(*@﹏@*)’~: 把表征网络representation输入是(210,160,3)，输出是编码状态（这个编码成什么自己定），然后是动态网络（dynamics），输入是编码状态和前一时刻所执行动作编码的组合，输出是一个reward和编码状态（注意编码状态的shape和之前的一样），最后是预测网络（prediction），输入是编码状态，输出是policy和value。其实我这个写的版本相较于原论文有简化，我这里只使用了一步td，而且原论文输出的reward和我这也不一样，主要是cartpole任务简单，只相当于个代码学习，所以你不看代码真的挺可惜的，而且你要做Atari任务你可能算力会不够，按照原论文的模型结构我之前试过个人电脑根本跑不了，所以你不如把代码读一遍（而且我写的也不好，有错误欢迎指正），比直接复制下来跑收获会更多。

【强化学习】MuZero 训练CartPole-v1

土豆大番薯: 具体要怎么改呀，我只看得懂里面有一个linner_model，包含了三个模型，但不知道怎么改

【强化学习】MuZero 训练CartPole-v1

昵称已被吞噬~‘(*@﹏@*)’~: 你没有改模型吧，把 cartpole_v1_model.py 里的模型改成卷积模型

【强化学习】MuZero 训练CartPole-v1

土豆大番薯: ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type numpy.ndarray).

【本文地址】

【强化学习环境】TSP问题强化学习环境搭建

【强化学习环境】TSP问题强化学习环境搭建

今日新闻

推荐新闻