gitextract_da0h0f0p/ ├── .gitignore ├── Doc/ │ ├── 1-RL-MDP.md │ ├── 10-RL-Policy Gradient.md │ ├── 11-RL-REINFORCE Algo.md │ ├── 12-RL-AC Algo.md │ ├── 13-RL-DDPG.md │ ├── 14-RL-TD3.md │ ├── 15-RL-PPO.md │ ├── 2-RL-DP.md │ ├── 3-RL-Model-free MC.md │ ├── 4-RL-Model-free TD.md │ ├── 5-RL-SARSA-QLearning.md │ ├── 6-RL-VFA.md │ ├── 7-RL-DQN.md │ ├── 8-RL-DQN Code.md │ └── 9-RL-DQN-Improvement.md ├── LICENSE ├── README.md ├── code/ │ ├── AC_Continous.py │ ├── AC_Discrete.py │ ├── DDPG.py │ ├── DDQN.py │ ├── DQN.py │ ├── Dueling DQN.py │ ├── PG_Continous.py │ ├── PG_Discrete.py │ ├── PPO.py │ ├── Q-Learning.py │ ├── SAC.py │ ├── Sarsa.py │ └── TD3.py ├── code_pytorch/ │ ├── DQN.py │ ├── PG_Continue.py │ ├── PG_Discreate.py │ ├── buffer.py │ ├── network.py │ └── parameter.py ├── model/ │ ├── AC_CartPole-v1/ │ │ ├── model_actor.npz │ │ └── model_critic.npz │ ├── AC_Pendulum-v0/ │ │ ├── model_actor.npz │ │ └── model_critic.npz │ ├── DDPG_Pendulum-v0/ │ │ ├── actor.hdf5 │ │ ├── actor_target.hdf5 │ │ ├── critic.hdf5 │ │ └── critic_target.hdf5 │ ├── DDQN_CartPole-v1/ │ │ ├── model.hdf5 │ │ └── target_model.hdf5 │ ├── DQN_CartPole-v1/ │ │ ├── model.hdf5 │ │ └── target_model.hdf5 │ ├── DuelineDQN_CartPole-v1/ │ │ ├── model.hdf5 │ │ └── target_model.hdf5 │ ├── PG_CartPole-v1/ │ │ └── pg_policy.hdf5 │ ├── PPO_Pendulum-v0/ │ │ ├── actor.hdf5 │ │ ├── actor_old.hdf5 │ │ └── critic.hdf5 │ ├── SAC_Pendulum-v0/ │ │ ├── log_alpha.npy │ │ ├── model_policy_net.npz │ │ ├── model_q_net1.npz │ │ ├── model_q_net2.npz │ │ ├── model_target_q_net1.npz │ │ └── model_target_q_net2.npz │ ├── TD3_Pendulum-v0/ │ │ ├── model_policy_net.npz │ │ ├── model_q_net1.npz │ │ ├── model_q_net2.npz │ │ ├── model_target_policy_net.npz │ │ ├── model_target_q_net1.npz │ │ └── model_target_q_net2.npz │ ├── qlearning_table.npy │ └── sarsa_q_table.npy └── model_torch/ ├── PG-Continue_Pendulum-v1/ │ └── model.pth └── PG-Discreate_CartPole-v1/ └── model.pth