gitextract_8twtflmr/

├── .gitignore
├── LICENCE
├── README.md
├── contents/
│   ├── 10_A3C/
│   │   ├── A3C_RNN.py
│   │   ├── A3C_continuous_action.py
│   │   ├── A3C_discrete_action.py
│   │   └── A3C_distributed_tf.py
│   ├── 11_Dyna_Q/
│   │   ├── RL_brain.py
│   │   ├── maze_env.py
│   │   └── run_this.py
│   ├── 12_Proximal_Policy_Optimization/
│   │   ├── DPPO.py
│   │   ├── discrete_DPPO.py
│   │   └── simply_PPO.py
│   ├── 1_command_line_reinforcement_learning/
│   │   └── treasure_on_right.py
│   ├── 2_Q_Learning_maze/
│   │   ├── RL_brain.py
│   │   ├── maze_env.py
│   │   └── run_this.py
│   ├── 3_Sarsa_maze/
│   │   ├── RL_brain.py
│   │   ├── maze_env.py
│   │   └── run_this.py
│   ├── 4_Sarsa_lambda_maze/
│   │   ├── RL_brain.py
│   │   ├── maze_env.py
│   │   └── run_this.py
│   ├── 5.1_Double_DQN/
│   │   ├── RL_brain.py
│   │   └── run_Pendulum.py
│   ├── 5.2_Prioritized_Replay_DQN/
│   │   ├── RL_brain.py
│   │   └── run_MountainCar.py
│   ├── 5.3_Dueling_DQN/
│   │   ├── RL_brain.py
│   │   └── run_Pendulum.py
│   ├── 5_Deep_Q_Network/
│   │   ├── DQN_modified.py
│   │   ├── RL_brain.py
│   │   ├── maze_env.py
│   │   └── run_this.py
│   ├── 6_OpenAI_gym/
│   │   ├── RL_brain.py
│   │   ├── run_CartPole.py
│   │   └── run_MountainCar.py
│   ├── 7_Policy_gradient_softmax/
│   │   ├── RL_brain.py
│   │   ├── run_CartPole.py
│   │   └── run_MountainCar.py
│   ├── 8_Actor_Critic_Advantage/
│   │   ├── AC_CartPole.py
│   │   └── AC_continue_Pendulum.py
│   ├── 9_Deep_Deterministic_Policy_Gradient_DDPG/
│   │   ├── DDPG.py
│   │   ├── DDPG_update.py
│   │   └── DDPG_update2.py
│   └── Curiosity_Model/
│       ├── Curiosity.py
│       └── Random_Network_Distillation.py
└── experiments/
    ├── 2D_car/
    │   ├── DDPG.py
    │   ├── car_env.py
    │   └── collision.py
    ├── Robot_arm/
    │   ├── A3C.py
    │   ├── DDPG.py
    │   ├── DPPO.py
    │   └── arm_env.py
    ├── Solve_BipedalWalker/
    │   ├── A3C.py
    │   ├── A3C_rnn.py
    │   ├── DDPG.py
    │   └── log/
    │       └── events.out.tfevents.1490801027.Morvan
    └── Solve_LunarLander/
        ├── A3C.py
        ├── DuelingDQNPrioritizedReplay.py
        └── run_LunarLander.py