gitextract_nce2oqyi/ ├── .gitignore ├── DP/ │ ├── Gamblers Problem Solution.ipynb │ ├── Gamblers Problem.ipynb │ ├── Policy Evaluation Solution.ipynb │ ├── Policy Evaluation.ipynb │ ├── Policy Iteration Solution.ipynb │ ├── Policy Iteration.ipynb │ ├── README.md │ ├── Value Iteration Solution.ipynb │ └── Value Iteration.ipynb ├── DQN/ │ ├── .gitignore │ ├── Breakout Playground.ipynb │ ├── Deep Q Learning Solution.ipynb │ ├── Deep Q Learning.ipynb │ ├── Double DQN Solution.ipynb │ ├── README.md │ └── dqn.py ├── FA/ │ ├── MountainCar Playground.ipynb │ ├── Q-Learning with Value Function Approximation Solution.ipynb │ ├── Q-Learning with Value Function Approximation.ipynb │ └── README.md ├── Introduction/ │ └── README.md ├── LICENSE ├── MC/ │ ├── Blackjack Playground.ipynb │ ├── MC Control with Epsilon-Greedy Policies Solution.ipynb │ ├── MC Control with Epsilon-Greedy Policies.ipynb │ ├── MC Prediction Solution.ipynb │ ├── MC Prediction.ipynb │ ├── Off-Policy MC Control with Weighted Importance Sampling Solution.ipynb │ ├── Off-Policy MC Control with Weighted Importance Sampling.ipynb │ └── README.md ├── MDP/ │ └── README.md ├── PolicyGradient/ │ ├── CliffWalk Actor Critic Solution.ipynb │ ├── CliffWalk REINFORCE with Baseline Solution.ipynb │ ├── Continuous MountainCar Actor Critic Solution.ipynb │ ├── README.md │ └── a3c/ │ ├── README.md │ ├── estimator_test.py │ ├── estimators.py │ ├── policy_monitor.py │ ├── policy_monitor_test.py │ ├── train.py │ ├── worker.py │ └── worker_test.py ├── README.md ├── TD/ │ ├── Cliff Environment Playground.ipynb │ ├── Q-Learning Solution.ipynb │ ├── Q-Learning.ipynb │ ├── README.md │ ├── SARSA Solution.ipynb │ ├── SARSA.ipynb │ └── Windy Gridworld Playground.ipynb ├── __init__.py └── lib/ ├── __init__.py ├── atari/ │ ├── __init__.py │ ├── helpers.py │ └── state_processor.py ├── envs/ │ ├── __init__.py │ ├── blackjack.py │ ├── cliff_walking.py │ ├── discrete.py │ ├── gridworld.py │ └── windy_gridworld.py └── plotting.py