Awesome
<div align="center"> <a href="https://github.com/opendilab/PPOxFamily"><img width="500px" height="auto" src="https://github.com/opendilab/PPOxFamily/blob/main/assets/ppof_logo.png"></a> </div>PPO x Family 决策智能入门公开课
欢迎来到 PPO x Family 系列决策智能入门公开课。该系列将深入理解深度强化学习算法 PPO ,灵活运用一个 PPO 算法解决几乎所有常见的决策智能应用 ,帮助一切对于深度强化学习技术有好奇心的人,轻便且高效地制作应用原型,了解和学习最强大最易用的 PPO Family 。
P.S. 路过记得点个 star ,2022年12月起持续更新中~
News
- 2023.06.07: PPO x Family 第八章(突破智能体终极界限)及课程大作业将在十月下旬正式上线
- 2023.06.01: [bilibili] PPO x Family 第七章(挖掘黑科技)正式上线
- 2023.04.06: [bilibili] PPO x Family 第六章(统筹多智能体)正式上线
- 2023.03.09: [bilibili] PPO x Family 第五章(探索时序建模)正式上线
- 2023.02.23: [bilibili] PPO x Family 第四章(解密稀疏奖励空间)正式上线
- 2023.01.16: [bilibili] PPO x Family 第三章(表征多模态观察空间)正式上线
- 2022.12.23: [bilibili] PPO x Family 第二章(解构复杂动作空间)正式上线
- 2022.12.23: PPO x Family ”算法-代码“ 注解文档网站上线 传送门
- 2022.12.08: [bilibili] PPO x Family 第一章(开启决策AI探索之旅)正式上线
- 2022.12.06: [bilibili] PPO x Family 第一章微课视频:4分钟带你快速入门强化学习的万能钥匙
- 2022.12.05: [PaperWeekly] 给你一个 PPO × Family 课程,撑起整个决策 AI 宇宙
- 2022.12.01: [bilibili] PPO x Family 课程品牌宣传视频
- 2022.11.30: [机器之心] 集中一点,演化无限:PPO × Family决策智能入门公开课即日开讲
- 2022.11.30: [中国计算机学会CCF] 【CCF科普群星计划】决策智能入门公开课开课啦
课程大纲
<div align="center"> <a href="https://github.com/opendilab/PPOxFamily"><img width="1000px" height="auto" src="https://github.com/opendilab/PPOxFamily/blob/main/assets/outline.png"></a> </div>内容导航
章节(视频课) | 算法理论资料 | 补充资料 | 习题 | 代码样例 | 应用样例 |
---|---|---|---|---|---|
第一章:开启决策AI探索之旅 | 课程PPT <br> 课程文字稿 | 微课视频 <br> 策略梯度 <br> A2C <br> TRPO <br> 符号表 <br> QA总结 | 习题 <br> 习题题解 | PG算法示例 <br> A2C算法示例 <br> PPO算法示例 | 应用混剪 |
第二章:解构复杂动作空间 | 课程PPT <br> 课程文字稿 | 重参数化 <br> PPO&DDPG <br> HyAR <br> QA总结 | 习题 <br> 习题题解 | 离散动作示例 <br> 连续动作示例 <br> 混合动作示例 <br> 应用训练代码 | 火箭回收等 |
第三章:表征多模态动作空间 | 课程PPT <br> 课程文字稿 | 表征学习 <br> PPG <br> 不变性 <br> QA总结 | 习题 <br> 习题题解 | 编码方法示例 <br> Wrapper示例 <br> 计算图示例 <br>应用训练代码 | 软体机器人等 |
第四章:解密稀疏奖励空间 | 课程PPT <br> 课程文字稿 | 逆强化学习 <br> 行为克隆BC <br> QA总结 | 习题 <br> 习题题解 | ICM好奇心奖励 <br> RND好奇心奖励 <br> Pop-Art示例 <br> 价值缩放 <br> 应用训练代码 | 自动驾驶等 |
第五章:探索时序建模 | 课程PPT | 随机性策略 <br> RWKV <br> Belief MDP <br> QA总结 | 习题 <br> 习题题解 | LSTM示例 <br> GTrXL示例 <br> 应用训练代码 | 记忆型决策 |
第六章:统筹多智能体 | 课程PPT | HAPPO <br> ACE <br> 值分解 <br> QA总结 | 习题 <br> 习题题解 | IndependentPG <br> MAPG <br> MAPPO <br> [HAPPO] <br> 应用训练代码 | 多智能体协作 |
第七章:挖掘黑科技 | 课程PPT | Adv 估计 <br> PPO off 版 <br> Entropy <br> QA总结 | 习题 <br> 习题题解 | GAE <br> Recompute <br> 梯度裁剪 <br> 正交初始化 <br> Dual Clip <br> Value Clip <br> 应用训练代码 | 学术基准环境 |
第八章:突破终极界限 | LLM RLHF | 语言模型 RL 环境 |
课程特点
一个算法解决万千应用 视频传送门
<div align="center"> <a href="https://github.com/opendilab/PPOxFamily"><img width="1000px" height="auto" src="https://github.com/opendilab/PPOxFamily/blob/main/assets/ppof_application.jpg"></a> </div>算法理论和代码实现一一对应 网站传送门
<div align="center"> <a href="https://github.com/opendilab/PPOxFamily"><img width="1000px" height="auto" src="https://github.com/opendilab/PPOxFamily/blob/main/assets/algo2code_demo.png"></a> </div>项目结构
.
├── LICENSE
├── assets --> 相关图片素材(转载请注明来源)
├── chapter2_action --> 课程第二章相关内容
└── chapter1_overview --> 课程第一章相关内容
├── chapter1_manuscript.pdf --> 课程第一章文字稿(对于PPT的补充说明)
├── chapter1_lecture.pdf --> 课程第一章PPT
├── chapter1_qa.pdf --> 课程第一章答疑文稿
├── chapter1_homework.pdf --> 课程第一章习题作业
├── chapter1_hw_solution.pdf --> 课程第一章习题作业题解
├── chapter1_supp_trpo.pdf --> 课程第一章补充材料(算法理论推导等)
└── chapter1_demo_code.py --> 课程第一章相关代码实现
课程答疑和反馈
- 常见问题FAQ:传送门
- 小助手微信号:ding314assist
- Slack:OpenDILab
- GitHub Issue区:链接
- B站账号:OpenDILab
- 知乎账号:DILab决策实验室
- Youtube:OpenDILab
- 邮箱:opendilab@pjlab.org.cn
License
PPOxFamily is released under the Apache 2.0 license.