gitextract_0vwfat_i/ ├── .gitignore ├── Amazon GPU howto.md ├── LICENSE.md ├── README.md ├── docker/ │ ├── Dockerfile │ ├── README.md │ ├── deeplearning.yaml │ └── run_jupyter.sh ├── setup_colab.sh ├── week01_intro/ │ ├── README.md │ ├── crossentropy_method.ipynb │ ├── deep_crossentropy_method.ipynb │ ├── pong.py │ ├── primer_python_for_ml/ │ │ ├── recap_ml.ipynb │ │ └── train.csv │ ├── project_starter_evolution_strategies.ipynb │ ├── seminar-es-task.ipynb │ └── seminar_gymnasium_interface.ipynb ├── week02_value_based/ │ ├── README.md │ ├── mdp.py │ └── seminar_vi.ipynb ├── week03_model_free/ │ ├── README.md │ └── homework.ipynb ├── week04_[recap]_deep_learning/ │ ├── README.md │ ├── mnist.py │ ├── notmnist.py │ ├── seminar_pytorch.ipynb │ └── seminar_tensorflow.ipynb ├── week04_approx_rl/ │ ├── README.md │ ├── dqn/ │ │ ├── __init__.py │ │ ├── analysis.py │ │ ├── atari_wrappers.py │ │ ├── logger.py │ │ ├── replay_buffer.py │ │ └── utils.py │ ├── homework_pytorch_debug.ipynb │ ├── homework_pytorch_main.ipynb │ ├── homework_tf.ipynb │ ├── requirements.txt │ ├── seminar_pytorch.ipynb │ ├── seminar_tf.ipynb │ └── test_td_loss/ │ └── compute_td_loss.py ├── week05_explore/ │ ├── README.md │ ├── q_learning_agent.py │ ├── replay_buffer.py │ └── week5.ipynb ├── week06_policy_based/ │ ├── README.md │ ├── a2c-optional.ipynb │ ├── atari_wrappers.py │ ├── env_batch.py │ ├── reinforce_pytorch.ipynb │ ├── reinforce_tensorflow.ipynb │ └── runners.py ├── week07_[recap]_rnn/ │ ├── README.md │ ├── arxiv_data.csv │ ├── mtg_card_names.txt │ ├── names │ ├── seminar_pytorch.ipynb │ └── seminar_tf.ipynb ├── week07_seq2seq/ │ ├── README.md │ ├── basic_model_tf.py │ ├── basic_model_torch.py │ ├── bonus_pytorch.ipynb │ ├── he-pron-wiktionary.txt │ ├── main_dataset.txt │ ├── practice_tf.ipynb │ ├── practice_torch.ipynb │ └── voc.py ├── week08_pomdp/ │ ├── README.md │ ├── atari_util.py │ ├── env_pool.py │ ├── practice_pytorch.ipynb │ └── practice_tensorflow.ipynb ├── week09_policy_II/ │ ├── README.md │ ├── mujoco_wrappers.py │ ├── ppo.ipynb │ ├── seminar_TRPO_pytorch.ipynb │ ├── seminar_TRPO_tensorflow.ipynb │ ├── td3_and_sac/ │ │ ├── hw-continuous-control_pytorch.ipynb │ │ └── logger.py │ └── test_ppo/ │ ├── actions.npy │ ├── advantages.npy │ ├── log_probs.npy │ ├── observations.npy │ ├── policy │ ├── resets.npy │ ├── rewards.npy │ ├── state.npy │ ├── value_targets.npy │ └── values.npy ├── week10_planning/ │ ├── README.md │ └── seminar_MCTS.ipynb ├── xvfb ├── yet_another_week/ │ ├── README.md │ └── _resource/ │ ├── README.md │ ├── a3c_scheme.odp │ ├── conv_salary_architecture.odp │ ├── dqn_arch.odp │ ├── exp_replay.odp │ ├── nnet_arch.odp │ ├── pomdp_arch.odp │ ├── qlearning_scheme.odp │ ├── qlearning_scheme.pgm │ └── target_net.odp └── youtube_dl_lectures.sh