gitextract_0vwfat_i/

├── .gitignore
├── Amazon GPU howto.md
├── LICENSE.md
├── README.md
├── docker/
│   ├── Dockerfile
│   ├── README.md
│   ├── deeplearning.yaml
│   └── run_jupyter.sh
├── setup_colab.sh
├── week01_intro/
│   ├── README.md
│   ├── crossentropy_method.ipynb
│   ├── deep_crossentropy_method.ipynb
│   ├── pong.py
│   ├── primer_python_for_ml/
│   │   ├── recap_ml.ipynb
│   │   └── train.csv
│   ├── project_starter_evolution_strategies.ipynb
│   ├── seminar-es-task.ipynb
│   └── seminar_gymnasium_interface.ipynb
├── week02_value_based/
│   ├── README.md
│   ├── mdp.py
│   └── seminar_vi.ipynb
├── week03_model_free/
│   ├── README.md
│   └── homework.ipynb
├── week04_[recap]_deep_learning/
│   ├── README.md
│   ├── mnist.py
│   ├── notmnist.py
│   ├── seminar_pytorch.ipynb
│   └── seminar_tensorflow.ipynb
├── week04_approx_rl/
│   ├── README.md
│   ├── dqn/
│   │   ├── __init__.py
│   │   ├── analysis.py
│   │   ├── atari_wrappers.py
│   │   ├── logger.py
│   │   ├── replay_buffer.py
│   │   └── utils.py
│   ├── homework_pytorch_debug.ipynb
│   ├── homework_pytorch_main.ipynb
│   ├── homework_tf.ipynb
│   ├── requirements.txt
│   ├── seminar_pytorch.ipynb
│   ├── seminar_tf.ipynb
│   └── test_td_loss/
│       └── compute_td_loss.py
├── week05_explore/
│   ├── README.md
│   ├── q_learning_agent.py
│   ├── replay_buffer.py
│   └── week5.ipynb
├── week06_policy_based/
│   ├── README.md
│   ├── a2c-optional.ipynb
│   ├── atari_wrappers.py
│   ├── env_batch.py
│   ├── reinforce_pytorch.ipynb
│   ├── reinforce_tensorflow.ipynb
│   └── runners.py
├── week07_[recap]_rnn/
│   ├── README.md
│   ├── arxiv_data.csv
│   ├── mtg_card_names.txt
│   ├── names
│   ├── seminar_pytorch.ipynb
│   └── seminar_tf.ipynb
├── week07_seq2seq/
│   ├── README.md
│   ├── basic_model_tf.py
│   ├── basic_model_torch.py
│   ├── bonus_pytorch.ipynb
│   ├── he-pron-wiktionary.txt
│   ├── main_dataset.txt
│   ├── practice_tf.ipynb
│   ├── practice_torch.ipynb
│   └── voc.py
├── week08_pomdp/
│   ├── README.md
│   ├── atari_util.py
│   ├── env_pool.py
│   ├── practice_pytorch.ipynb
│   └── practice_tensorflow.ipynb
├── week09_policy_II/
│   ├── README.md
│   ├── mujoco_wrappers.py
│   ├── ppo.ipynb
│   ├── seminar_TRPO_pytorch.ipynb
│   ├── seminar_TRPO_tensorflow.ipynb
│   ├── td3_and_sac/
│   │   ├── hw-continuous-control_pytorch.ipynb
│   │   └── logger.py
│   └── test_ppo/
│       ├── actions.npy
│       ├── advantages.npy
│       ├── log_probs.npy
│       ├── observations.npy
│       ├── policy
│       ├── resets.npy
│       ├── rewards.npy
│       ├── state.npy
│       ├── value_targets.npy
│       └── values.npy
├── week10_planning/
│   ├── README.md
│   └── seminar_MCTS.ipynb
├── xvfb
├── yet_another_week/
│   ├── README.md
│   └── _resource/
│       ├── README.md
│       ├── a3c_scheme.odp
│       ├── conv_salary_architecture.odp
│       ├── dqn_arch.odp
│       ├── exp_replay.odp
│       ├── nnet_arch.odp
│       ├── pomdp_arch.odp
│       ├── qlearning_scheme.odp
│       ├── qlearning_scheme.pgm
│       └── target_net.odp
└── youtube_dl_lectures.sh