gitextract_8twtflmr/ ├── .gitignore ├── LICENCE ├── README.md ├── contents/ │ ├── 10_A3C/ │ │ ├── A3C_RNN.py │ │ ├── A3C_continuous_action.py │ │ ├── A3C_discrete_action.py │ │ └── A3C_distributed_tf.py │ ├── 11_Dyna_Q/ │ │ ├── RL_brain.py │ │ ├── maze_env.py │ │ └── run_this.py │ ├── 12_Proximal_Policy_Optimization/ │ │ ├── DPPO.py │ │ ├── discrete_DPPO.py │ │ └── simply_PPO.py │ ├── 1_command_line_reinforcement_learning/ │ │ └── treasure_on_right.py │ ├── 2_Q_Learning_maze/ │ │ ├── RL_brain.py │ │ ├── maze_env.py │ │ └── run_this.py │ ├── 3_Sarsa_maze/ │ │ ├── RL_brain.py │ │ ├── maze_env.py │ │ └── run_this.py │ ├── 4_Sarsa_lambda_maze/ │ │ ├── RL_brain.py │ │ ├── maze_env.py │ │ └── run_this.py │ ├── 5.1_Double_DQN/ │ │ ├── RL_brain.py │ │ └── run_Pendulum.py │ ├── 5.2_Prioritized_Replay_DQN/ │ │ ├── RL_brain.py │ │ └── run_MountainCar.py │ ├── 5.3_Dueling_DQN/ │ │ ├── RL_brain.py │ │ └── run_Pendulum.py │ ├── 5_Deep_Q_Network/ │ │ ├── DQN_modified.py │ │ ├── RL_brain.py │ │ ├── maze_env.py │ │ └── run_this.py │ ├── 6_OpenAI_gym/ │ │ ├── RL_brain.py │ │ ├── run_CartPole.py │ │ └── run_MountainCar.py │ ├── 7_Policy_gradient_softmax/ │ │ ├── RL_brain.py │ │ ├── run_CartPole.py │ │ └── run_MountainCar.py │ ├── 8_Actor_Critic_Advantage/ │ │ ├── AC_CartPole.py │ │ └── AC_continue_Pendulum.py │ ├── 9_Deep_Deterministic_Policy_Gradient_DDPG/ │ │ ├── DDPG.py │ │ ├── DDPG_update.py │ │ └── DDPG_update2.py │ └── Curiosity_Model/ │ ├── Curiosity.py │ └── Random_Network_Distillation.py └── experiments/ ├── 2D_car/ │ ├── DDPG.py │ ├── car_env.py │ └── collision.py ├── Robot_arm/ │ ├── A3C.py │ ├── DDPG.py │ ├── DPPO.py │ └── arm_env.py ├── Solve_BipedalWalker/ │ ├── A3C.py │ ├── A3C_rnn.py │ ├── DDPG.py │ └── log/ │ └── events.out.tfevents.1490801027.Morvan └── Solve_LunarLander/ ├── A3C.py ├── DuelingDQNPrioritizedReplay.py └── run_LunarLander.py