gitextract_da0h0f0p/

├── .gitignore
├── Doc/
│   ├── 1-RL-MDP.md
│   ├── 10-RL-Policy Gradient.md
│   ├── 11-RL-REINFORCE Algo.md
│   ├── 12-RL-AC Algo.md
│   ├── 13-RL-DDPG.md
│   ├── 14-RL-TD3.md
│   ├── 15-RL-PPO.md
│   ├── 2-RL-DP.md
│   ├── 3-RL-Model-free MC.md
│   ├── 4-RL-Model-free TD.md
│   ├── 5-RL-SARSA-QLearning.md
│   ├── 6-RL-VFA.md
│   ├── 7-RL-DQN.md
│   ├── 8-RL-DQN Code.md
│   └── 9-RL-DQN-Improvement.md
├── LICENSE
├── README.md
├── code/
│   ├── AC_Continous.py
│   ├── AC_Discrete.py
│   ├── DDPG.py
│   ├── DDQN.py
│   ├── DQN.py
│   ├── Dueling DQN.py
│   ├── PG_Continous.py
│   ├── PG_Discrete.py
│   ├── PPO.py
│   ├── Q-Learning.py
│   ├── SAC.py
│   ├── Sarsa.py
│   └── TD3.py
├── code_pytorch/
│   ├── DQN.py
│   ├── PG_Continue.py
│   ├── PG_Discreate.py
│   ├── buffer.py
│   ├── network.py
│   └── parameter.py
├── model/
│   ├── AC_CartPole-v1/
│   │   ├── model_actor.npz
│   │   └── model_critic.npz
│   ├── AC_Pendulum-v0/
│   │   ├── model_actor.npz
│   │   └── model_critic.npz
│   ├── DDPG_Pendulum-v0/
│   │   ├── actor.hdf5
│   │   ├── actor_target.hdf5
│   │   ├── critic.hdf5
│   │   └── critic_target.hdf5
│   ├── DDQN_CartPole-v1/
│   │   ├── model.hdf5
│   │   └── target_model.hdf5
│   ├── DQN_CartPole-v1/
│   │   ├── model.hdf5
│   │   └── target_model.hdf5
│   ├── DuelineDQN_CartPole-v1/
│   │   ├── model.hdf5
│   │   └── target_model.hdf5
│   ├── PG_CartPole-v1/
│   │   └── pg_policy.hdf5
│   ├── PPO_Pendulum-v0/
│   │   ├── actor.hdf5
│   │   ├── actor_old.hdf5
│   │   └── critic.hdf5
│   ├── SAC_Pendulum-v0/
│   │   ├── log_alpha.npy
│   │   ├── model_policy_net.npz
│   │   ├── model_q_net1.npz
│   │   ├── model_q_net2.npz
│   │   ├── model_target_q_net1.npz
│   │   └── model_target_q_net2.npz
│   ├── TD3_Pendulum-v0/
│   │   ├── model_policy_net.npz
│   │   ├── model_q_net1.npz
│   │   ├── model_q_net2.npz
│   │   ├── model_target_policy_net.npz
│   │   ├── model_target_q_net1.npz
│   │   └── model_target_q_net2.npz
│   ├── qlearning_table.npy
│   └── sarsa_q_table.npy
└── model_torch/
    ├── PG-Continue_Pendulum-v1/
    │   └── model.pth
    └── PG-Discreate_CartPole-v1/
        └── model.pth