gitextract_vxq3k1wk/ ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── bug_report.yml │ │ ├── custom_env.yml │ │ ├── documentation.yml │ │ ├── feature_request.yml │ │ └── question.yml │ ├── PULL_REQUEST_TEMPLATE.md │ └── workflows/ │ └── ci.yml ├── .gitignore ├── .readthedocs.yml ├── CITATION.bib ├── CODE_OF_CONDUCT.md ├── CONTRIBUTING.md ├── Dockerfile ├── LICENSE ├── Makefile ├── NOTICE ├── README.md ├── docs/ │ ├── Makefile │ ├── README.md │ ├── _static/ │ │ └── css/ │ │ └── baselines_theme.css │ ├── common/ │ │ ├── atari_wrappers.md │ │ ├── distributions.md │ │ ├── env_checker.md │ │ ├── env_util.md │ │ ├── envs.md │ │ ├── evaluation.md │ │ ├── logger.md │ │ ├── monitor.md │ │ ├── noise.md │ │ └── utils.md │ ├── conda_env.yml │ ├── conf.py │ ├── guide/ │ │ ├── algos.md │ │ ├── callbacks.md │ │ ├── checking_nan.md │ │ ├── custom_env.md │ │ ├── custom_policy.md │ │ ├── developer.md │ │ ├── examples.md │ │ ├── export.md │ │ ├── imitation.md │ │ ├── install.md │ │ ├── integrations.md │ │ ├── migration.md │ │ ├── plotting.md │ │ ├── quickstart.md │ │ ├── rl.md │ │ ├── rl_tips.md │ │ ├── rl_zoo.md │ │ ├── save_format.md │ │ ├── sb3_contrib.md │ │ ├── sbx.md │ │ ├── tensorboard.md │ │ └── vec_envs.md │ ├── index.rst │ ├── make.bat │ ├── misc/ │ │ ├── changelog.md │ │ └── projects.md │ ├── modules/ │ │ ├── a2c.md │ │ ├── base.md │ │ ├── ddpg.md │ │ ├── dqn.md │ │ ├── her.md │ │ ├── ppo.md │ │ ├── sac.md │ │ └── td3.md │ └── spelling_wordlist.txt ├── pyproject.toml ├── scripts/ │ ├── build_docker.sh │ ├── run_docker_cpu.sh │ ├── run_docker_gpu.sh │ └── run_tests.sh ├── setup.py ├── stable_baselines3/ │ ├── __init__.py │ ├── a2c/ │ │ ├── __init__.py │ │ ├── a2c.py │ │ └── policies.py │ ├── common/ │ │ ├── __init__.py │ │ ├── atari_wrappers.py │ │ ├── base_class.py │ │ ├── buffers.py │ │ ├── callbacks.py │ │ ├── distributions.py │ │ ├── env_checker.py │ │ ├── env_util.py │ │ ├── envs/ │ │ │ ├── __init__.py │ │ │ ├── bit_flipping_env.py │ │ │ ├── identity_env.py │ │ │ └── multi_input_envs.py │ │ ├── evaluation.py │ │ ├── logger.py │ │ ├── monitor.py │ │ ├── noise.py │ │ ├── off_policy_algorithm.py │ │ ├── on_policy_algorithm.py │ │ ├── policies.py │ │ ├── preprocessing.py │ │ ├── results_plotter.py │ │ ├── running_mean_std.py │ │ ├── save_util.py │ │ ├── sb2_compat/ │ │ │ ├── __init__.py │ │ │ └── rmsprop_tf_like.py │ │ ├── torch_layers.py │ │ ├── type_aliases.py │ │ ├── utils.py │ │ └── vec_env/ │ │ ├── __init__.py │ │ ├── base_vec_env.py │ │ ├── dummy_vec_env.py │ │ ├── patch_gym.py │ │ ├── stacked_observations.py │ │ ├── subproc_vec_env.py │ │ ├── util.py │ │ ├── vec_check_nan.py │ │ ├── vec_extract_dict_obs.py │ │ ├── vec_frame_stack.py │ │ ├── vec_monitor.py │ │ ├── vec_normalize.py │ │ ├── vec_transpose.py │ │ └── vec_video_recorder.py │ ├── ddpg/ │ │ ├── __init__.py │ │ ├── ddpg.py │ │ └── policies.py │ ├── dqn/ │ │ ├── __init__.py │ │ ├── dqn.py │ │ └── policies.py │ ├── her/ │ │ ├── __init__.py │ │ ├── goal_selection_strategy.py │ │ └── her_replay_buffer.py │ ├── ppo/ │ │ ├── __init__.py │ │ ├── policies.py │ │ └── ppo.py │ ├── py.typed │ ├── sac/ │ │ ├── __init__.py │ │ ├── policies.py │ │ └── sac.py │ ├── td3/ │ │ ├── __init__.py │ │ ├── policies.py │ │ └── td3.py │ └── version.txt └── tests/ ├── __init__.py ├── test_buffers.py ├── test_callbacks.py ├── test_cnn.py ├── test_custom_policy.py ├── test_deterministic.py ├── test_dict_env.py ├── test_distributions.py ├── test_env_checker.py ├── test_envs.py ├── test_gae.py ├── test_her.py ├── test_identity.py ├── test_logger.py ├── test_monitor.py ├── test_n_step_replay.py ├── test_predict.py ├── test_preprocessing.py ├── test_run.py ├── test_save_load.py ├── test_sde.py ├── test_spaces.py ├── test_tensorboard.py ├── test_train_eval_mode.py ├── test_utils.py ├── test_vec_check_nan.py ├── test_vec_envs.py ├── test_vec_extract_dict_obs.py ├── test_vec_monitor.py ├── test_vec_normalize.py └── test_vec_stacked_obs.py