gitextract_hmpqqyur/ ├── .gitignore ├── .travis.yml ├── LICENSE ├── docs/ │ ├── Makefile │ ├── _static/ │ │ └── css/ │ │ └── modify.css │ ├── algorithms/ │ │ ├── ddpg.rst │ │ ├── ppo.rst │ │ ├── sac.rst │ │ ├── td3.rst │ │ ├── trpo.rst │ │ └── vpg.rst │ ├── conf.py │ ├── docs_requirements.txt │ ├── etc/ │ │ ├── acknowledgements.rst │ │ └── author.rst │ ├── images/ │ │ ├── rl_algorithms.xml │ │ └── rl_algorithms_9_15.xml │ ├── index.rst │ ├── make.bat │ ├── spinningup/ │ │ ├── bench.rst │ │ ├── bench_ddpg.rst │ │ ├── bench_ppo.rst │ │ ├── bench_sac.rst │ │ ├── bench_td3.rst │ │ ├── bench_vpg.rst │ │ ├── exercise2_1_soln.rst │ │ ├── exercise2_2_soln.rst │ │ ├── exercises.rst │ │ ├── extra_pg_proof1.rst │ │ ├── extra_pg_proof2.rst │ │ ├── extra_tf_pg_implementation.rst │ │ ├── keypapers.rst │ │ ├── rl_intro.rst │ │ ├── rl_intro2.rst │ │ ├── rl_intro3.rst │ │ ├── rl_intro4.rst │ │ └── spinningup.rst │ ├── user/ │ │ ├── algorithms.rst │ │ ├── installation.rst │ │ ├── introduction.rst │ │ ├── plotting.rst │ │ ├── running.rst │ │ └── saving_and_loading.rst │ └── utils/ │ ├── logger.rst │ ├── mpi.rst │ ├── plotter.rst │ └── run_utils.rst ├── readme.md ├── readthedocs.yml ├── setup.py ├── spinup/ │ ├── __init__.py │ ├── algos/ │ │ ├── __init__.py │ │ ├── pytorch/ │ │ │ ├── ddpg/ │ │ │ │ ├── core.py │ │ │ │ └── ddpg.py │ │ │ ├── ppo/ │ │ │ │ ├── core.py │ │ │ │ └── ppo.py │ │ │ ├── sac/ │ │ │ │ ├── core.py │ │ │ │ └── sac.py │ │ │ ├── td3/ │ │ │ │ ├── core.py │ │ │ │ └── td3.py │ │ │ ├── trpo/ │ │ │ │ └── trpo.py │ │ │ └── vpg/ │ │ │ ├── core.py │ │ │ └── vpg.py │ │ └── tf1/ │ │ ├── ddpg/ │ │ │ ├── __init__.py │ │ │ ├── core.py │ │ │ └── ddpg.py │ │ ├── ppo/ │ │ │ ├── __init__.py │ │ │ ├── core.py │ │ │ └── ppo.py │ │ ├── sac/ │ │ │ ├── __init__.py │ │ │ ├── core.py │ │ │ └── sac.py │ │ ├── td3/ │ │ │ ├── __init__.py │ │ │ ├── core.py │ │ │ └── td3.py │ │ ├── trpo/ │ │ │ ├── __init__.py │ │ │ ├── core.py │ │ │ └── trpo.py │ │ └── vpg/ │ │ ├── __init__.py │ │ ├── core.py │ │ └── vpg.py │ ├── examples/ │ │ ├── pytorch/ │ │ │ ├── bench_ppo_cartpole.py │ │ │ └── pg_math/ │ │ │ ├── 1_simple_pg.py │ │ │ └── 2_rtg_pg.py │ │ └── tf1/ │ │ ├── bench_ppo_cartpole.py │ │ ├── pg_math/ │ │ │ ├── 1_simple_pg.py │ │ │ └── 2_rtg_pg.py │ │ └── train_mnist.py │ ├── exercises/ │ │ ├── common.py │ │ ├── pytorch/ │ │ │ ├── problem_set_1/ │ │ │ │ ├── exercise1_1.py │ │ │ │ ├── exercise1_2.py │ │ │ │ ├── exercise1_2_auxiliary.py │ │ │ │ └── exercise1_3.py │ │ │ ├── problem_set_1_solutions/ │ │ │ │ ├── exercise1_1_soln.py │ │ │ │ └── exercise1_2_soln.py │ │ │ └── problem_set_2/ │ │ │ └── exercise2_2.py │ │ └── tf1/ │ │ ├── problem_set_1/ │ │ │ ├── exercise1_1.py │ │ │ ├── exercise1_2.py │ │ │ └── exercise1_3.py │ │ ├── problem_set_1_solutions/ │ │ │ ├── exercise1_1_soln.py │ │ │ └── exercise1_2_soln.py │ │ └── problem_set_2/ │ │ └── exercise2_2.py │ ├── run.py │ ├── user_config.py │ ├── utils/ │ │ ├── __init__.py │ │ ├── logx.py │ │ ├── mpi_pytorch.py │ │ ├── mpi_tf.py │ │ ├── mpi_tools.py │ │ ├── plot.py │ │ ├── run_entrypoint.py │ │ ├── run_utils.py │ │ ├── serialization_utils.py │ │ └── test_policy.py │ └── version.py ├── test/ │ └── test_ppo.py └── travis_setup.sh