TensorFlow 强化学习#
- TensorFlow Agents
- TensorFlow 强化学习教程
- RL 和深度 Q 网络简介
- Copyright 2023 The TF-Agents Authors.
- Checkpointer 和 PolicySaver
- 使用 TF-Agents 训练深度 Q 网络
- Copyright 2023 The TF-Agents Authors.
- 环境
- Copyright 2023 The TF-Agents Authors.
- 策略
- Copyright 2023 The TF-Agents Authors.
- 驱动程序
- Copyright 2023 The TF-Agents Authors.
- 回放缓冲区
- Copyright 2023 The TF-Agents Authors.
- REINFORCE 代理
- 具有 Actor-Learner API 的 SAC Minitaur
- Copyright 2023 The TF-Agents Authors.
- 网络
- Copyright 2023 The TF-Agents Authors.
- DQN C51/Rainbow
- Copyright 2023 The TF-Agents Authors.
- TF-Agents 中的多臂老虎机教程
- 简介
- 环境
- 策略
- 代理
- 轨迹
- 训练代理
- 真实上下文老虎机示例
- 后续步骤
- Copyright 2023 The TF-Agents Authors.
- 多手柄老虎机简介
- Copyright 2023 The TF-Agents Authors.
- 具有按臂特征的多臂老虎机教程
- Copyright 2023 The TF-Agents Authors.
- TF-Agents 中的排名教程
- 简介
- 前提条件
- 排名问题及其变体
- 与探索
- 模拟用户:我们的测试环境
- 后续步骤
- TF-Agents 中的 RLDS 到 Reverb 实用工具