Home

Awesome

<div align="center"> <a href="https://github.com/opendilab/PPOxFamily"><img width="500px" height="auto" src="https://github.com/opendilab/PPOxFamily/blob/main/assets/ppof_logo.png"></a> </div>

PPO x Family 决策智能入门公开课

欢迎来到 PPO x Family 系列决策智能入门公开课。该系列将深入理解深度强化学习算法 PPO ,灵活运用一个 PPO 算法解决几乎所有常见的决策智能应用 ,帮助一切对于深度强化学习技术有好奇心的人,轻便且高效地制作应用原型,了解和学习最强大最易用的 PPO Family 。

P.S. 路过记得点个 star stars - ppof ,2022年12月起持续更新中~

News

课程大纲

<div align="center"> <a href="https://github.com/opendilab/PPOxFamily"><img width="1000px" height="auto" src="https://github.com/opendilab/PPOxFamily/blob/main/assets/outline.png"></a> </div>

内容导航

章节(视频课)算法理论资料补充资料习题代码样例应用样例
第一章:开启决策AI探索之旅课程PPT <br> 课程文字稿微课视频 <br> 策略梯度 <br> A2C <br> TRPO <br> 符号表 <br> QA总结习题 <br> 习题题解PG算法示例 <br> A2C算法示例 <br> PPO算法示例应用混剪
第二章:解构复杂动作空间课程PPT <br> 课程文字稿重参数化 <br> PPO&DDPG <br> HyAR <br> QA总结习题 <br> 习题题解离散动作示例 <br> 连续动作示例 <br> 混合动作示例 <br> 应用训练代码火箭回收等
第三章:表征多模态动作空间课程PPT <br> 课程文字稿表征学习 <br> PPG <br> 不变性 <br> QA总结习题 <br> 习题题解编码方法示例 <br> Wrapper示例 <br> 计算图示例 <br>应用训练代码软体机器人等
第四章:解密稀疏奖励空间课程PPT <br> 课程文字稿逆强化学习 <br> 行为克隆BC <br> QA总结习题 <br> 习题题解ICM好奇心奖励 <br> RND好奇心奖励 <br> Pop-Art示例 <br> 价值缩放 <br> 应用训练代码自动驾驶等
第五章:探索时序建模课程PPT随机性策略 <br> RWKV <br> Belief MDP <br> QA总结习题 <br> 习题题解LSTM示例 <br> GTrXL示例 <br> 应用训练代码记忆型决策
第六章:统筹多智能体课程PPTHAPPO <br> ACE <br> 值分解 <br> QA总结习题 <br> 习题题解IndependentPG <br> MAPG <br> MAPPO <br> [HAPPO] <br> 应用训练代码多智能体协作
第七章:挖掘黑科技课程PPTAdv 估计 <br> PPO off 版 <br> Entropy <br> QA总结习题 <br> 习题题解GAE <br> Recompute <br> 梯度裁剪 <br> 正交初始化 <br> Dual Clip <br> Value Clip <br> 应用训练代码学术基准环境
第八章:突破终极界限LLM RLHF语言模型 RL 环境

课程特点

一个算法解决万千应用 视频传送门

<div align="center"> <a href="https://github.com/opendilab/PPOxFamily"><img width="1000px" height="auto" src="https://github.com/opendilab/PPOxFamily/blob/main/assets/ppof_application.jpg"></a> </div>

算法理论和代码实现一一对应 网站传送门

<div align="center"> <a href="https://github.com/opendilab/PPOxFamily"><img width="1000px" height="auto" src="https://github.com/opendilab/PPOxFamily/blob/main/assets/algo2code_demo.png"></a> </div>

项目结构

.
├── LICENSE
├── assets                       --> 相关图片素材(转载请注明来源)
├── chapter2_action              --> 课程第二章相关内容
└── chapter1_overview            --> 课程第一章相关内容
    ├── chapter1_manuscript.pdf  --> 课程第一章文字稿(对于PPT的补充说明)
    ├── chapter1_lecture.pdf     --> 课程第一章PPT
    ├── chapter1_qa.pdf          --> 课程第一章答疑文稿
    ├── chapter1_homework.pdf    --> 课程第一章习题作业
    ├── chapter1_hw_solution.pdf   --> 课程第一章习题作业题解
    ├── chapter1_supp_trpo.pdf          --> 课程第一章补充材料(算法理论推导等)
    └── chapter1_demo_code.py    --> 课程第一章相关代码实现

课程答疑和反馈

License

PPOxFamily is released under the Apache 2.0 license.