Skip to main content

Ctrl+K

GitHub
知乎
简书
B站
领英

TensorFlow 官方教程
API Reference
- tensorflow_book

.md

TensorFlow 强化学习教程

TensorFlow 强化学习教程#

RL 和深度 Q 网络简介
- 简介
- Cartpole 环境
- DQN 代理
- TF-Agents 中基于 Cartpole 的 DQN
Copyright 2023 The TF-Agents Authors.
Checkpointer 和 PolicySaver
- 简介
- 设置
- DQN 代理
- 设置 Checkpointer 和 PolicySaver
- 导出和导入
- SavedModelPyTFEagerPolicy
- 将策略转换为 TFLite
  - 在 TFLite 模型上运行推断
使用 TF-Agents 训练深度 Q 网络
- 简介
- 设置
- 超参数
- 环境
- 代理
- 策略
- 指标和评估
- 回放缓冲区
- 数据收集
- 训练代理
- 可视化
  - 绘图
  - 视频
Copyright 2023 The TF-Agents Authors.
环境
- 简介
- 设置
- Python 环境
- TensorFlow 环境
Copyright 2023 The TF-Agents Authors.
策略
- 简介
- 设置
- Python 策略
  - 示例 1：随机 Python 策略
  - 示例 2：脚本化 Python 策略
- TensorFlow 策略
- 策略包装器
  - 示例：贪心策略
Copyright 2023 The TF-Agents Authors.
驱动程序
- 简介
- 设置
- Python 驱动程序
- TensorFlow 驱动程序
Copyright 2023 The TF-Agents Authors.
回放缓冲区
- 简介
- 设置
- 回放缓冲区 API
- TFUniformReplayBuffer
- PyUniformReplayBuffer
- 在训练过程中使用回放缓冲区
  - 数据收集
  - 读取用于训练步骤的数据
Copyright 2023 The TF-Agents Authors.
REINFORCE 代理
- 简介
- 设置
- 超参数
- 环境
- 代理
- 策略
- 指标和评估
- 回放缓冲区
- 数据收集
- 训练代理
- 可视化
  - 绘图
  - 视频
具有 Actor-Learner API 的 SAC Minitaur
- 简介
- 设置
- 超参数
- 环境
- 分布策略
  - 启用 GPU
  - 选择策略
- 代理
- 回放缓冲区
- 策略
- Actor
- Learner
- 指标和评估
- 训练代理
- 可视化
  - 绘图
  - 视频
Copyright 2023 The TF-Agents Authors.
网络
- 简介
- 设置
- 定义网络
  - Network API
  - 自定义网络
Copyright 2023 The TF-Agents Authors.
DQN C51/Rainbow
- 简介
- 设置
- 超参数
- 环境
- 代理
- 指标和评估
- 数据收集
- 训练代理
- 可视化
  - 绘图
  - 视频
Copyright 2023 The TF-Agents Authors.
TF-Agents 中的多臂老虎机教程
- 开始
- 安装
- 导入
简介
环境
- 环境类的简单示例
- TF 环境
策略
代理
- 更加复杂的环境
- 更加复杂的策略
- 代理
轨迹
训练代理
真实上下文老虎机示例
- 采用线性收益函数的平稳随机环境
- LinUCB 代理
- 后悔值指标
- 训练
后续步骤
Copyright 2023 The TF-Agents Authors.
多手柄老虎机简介
- 仅保存权重值。通常在训练模型时使用。
- 多臂老虎机和强化学习
- 蘑菇环境
- LinUCB 代理
- 后续步骤
Copyright 2023 The TF-Agents Authors.
具有按臂特征的多臂老虎机教程
- 开始
- 前提条件
- 具有臂特征的多臂老虎机
- TF-Agents 中的按臂老虎机
Copyright 2023 The TF-Agents Authors.
TF-Agents 中的排名教程
- 开始
- 安装
简介
前提条件
排名问题及其变体
- 向量反馈
与探索
模拟用户：我们的测试环境
后续步骤

上一页

TensorFlow Agents

下一页

RL 和深度 Q 网络简介

作者： xinetzone

© Copyright 2021, xinetzone.

© Copyright 2021, xinetzone.

由 Sphinx 8.1.3创建。