gitextract_5ebdbtva/ ├── .env_example ├── LICENSE.md ├── README.md ├── configs/ │ ├── overthewire_bench/ │ │ ├── bandit.json │ │ ├── benchmarks/ │ │ │ ├── Gpt_4o.json │ │ │ ├── Gpt_4o_mini.json │ │ │ ├── Gpt_o1.json │ │ │ ├── Llama31_70b.json │ │ │ ├── Llama31_8b.json │ │ │ ├── Mixtral_8x7.json │ │ │ ├── Phi35_MoE.json │ │ │ ├── Phi3_4k.json │ │ │ └── Qwen2_72b.json │ │ ├── natas.json │ │ └── param_opt/ │ │ ├── observation_length/ │ │ │ ├── Llama31_8b_obs_length_limit_100.json │ │ │ ├── Llama31_8b_obs_length_limit_1000.json │ │ │ ├── Llama31_8b_obs_length_limit_150.json │ │ │ ├── Llama31_8b_obs_length_limit_200.json │ │ │ ├── Llama31_8b_obs_length_limit_2000.json │ │ │ ├── Llama31_8b_obs_length_limit_250.json │ │ │ ├── Llama31_8b_obs_length_limit_300.json │ │ │ ├── Llama31_8b_obs_length_limit_350.json │ │ │ ├── Llama31_8b_obs_length_limit_400.json │ │ │ ├── Llama31_8b_obs_length_limit_450.json │ │ │ ├── Llama31_8b_obs_length_limit_500.json │ │ │ ├── Phi_obs_length_limit_100.json │ │ │ ├── Phi_obs_length_limit_1000.json │ │ │ ├── Phi_obs_length_limit_150.json │ │ │ ├── Phi_obs_length_limit_200.json │ │ │ ├── Phi_obs_length_limit_2000.json │ │ │ ├── Phi_obs_length_limit_250.json │ │ │ ├── Phi_obs_length_limit_300.json │ │ │ ├── Phi_obs_length_limit_350.json │ │ │ ├── Phi_obs_length_limit_400.json │ │ │ └── Phi_obs_length_limit_500.json │ │ ├── temperature/ │ │ │ ├── Llama31_8b_temp_0.json │ │ │ ├── Llama31_8b_temp_02.json │ │ │ ├── Llama31_8b_temp_04.json │ │ │ ├── Llama31_8b_temp_06.json │ │ │ ├── Llama31_8b_temp_08.json │ │ │ ├── Llama31_8b_temp_12.json │ │ │ ├── Llama31_8b_temp_14.json │ │ │ ├── Llama31_8b_temp_16.json │ │ │ ├── Llama31_8b_temp_18.json │ │ │ ├── Llama31_8b_temp_20.json │ │ │ ├── Phi_temp_0.json │ │ │ ├── Phi_temp_02.json │ │ │ ├── Phi_temp_04.json │ │ │ ├── Phi_temp_06.json │ │ │ ├── Phi_temp_08.json │ │ │ ├── Phi_temp_12.json │ │ │ ├── Phi_temp_14.json │ │ │ ├── Phi_temp_16.json │ │ │ ├── Phi_temp_18.json │ │ │ └── Phi_temp_20.json │ │ └── top_p/ │ │ ├── Llama31_8b_top_p_01.json │ │ ├── Llama31_8b_top_p_02.json │ │ ├── Llama31_8b_top_p_03.json │ │ ├── Llama31_8b_top_p_04.json │ │ ├── Llama31_8b_top_p_05.json │ │ ├── Llama31_8b_top_p_06.json │ │ ├── Llama31_8b_top_p_07.json │ │ ├── Llama31_8b_top_p_08.json │ │ ├── Llama31_8b_top_p_09.json │ │ ├── Llama31_8b_top_p_1.json │ │ ├── Phi_top_p_01.json │ │ ├── Phi_top_p_02.json │ │ ├── Phi_top_p_03.json │ │ ├── Phi_top_p_04.json │ │ ├── Phi_top_p_05.json │ │ ├── Phi_top_p_06.json │ │ ├── Phi_top_p_07.json │ │ ├── Phi_top_p_08.json │ │ ├── Phi_top_p_09.json │ │ └── Phi_top_p_1.json │ └── pico_bench/ │ ├── benchmarks/ │ │ ├── Gpt_4o.json │ │ ├── Gpt_4o_mini.json │ │ ├── Gpt_o1.json │ │ ├── Llama31_70b.json │ │ ├── Llama31_8b.json │ │ ├── Mixtral_8x7.json │ │ ├── Phi35_MoE.json │ │ ├── Phi3_4k.json │ │ └── Qwen2_72b.json │ └── param_opt/ │ ├── Llama31_8b_prompt_chaining_true.json │ ├── observation_length/ │ │ ├── Llama31_8b_obs_length_limit_100.json │ │ ├── Llama31_8b_obs_length_limit_1000.json │ │ ├── Llama31_8b_obs_length_limit_150.json │ │ ├── Llama31_8b_obs_length_limit_200.json │ │ ├── Llama31_8b_obs_length_limit_250.json │ │ ├── Llama31_8b_obs_length_limit_300.json │ │ ├── Llama31_8b_obs_length_limit_350.json │ │ ├── Llama31_8b_obs_length_limit_400.json │ │ ├── Llama31_8b_obs_length_limit_500.json │ │ ├── Phi_obs_length_limit_100.json │ │ ├── Phi_obs_length_limit_1000.json │ │ ├── Phi_obs_length_limit_150.json │ │ ├── Phi_obs_length_limit_200.json │ │ ├── Phi_obs_length_limit_2000.json │ │ ├── Phi_obs_length_limit_250.json │ │ ├── Phi_obs_length_limit_300.json │ │ ├── Phi_obs_length_limit_350.json │ │ ├── Phi_obs_length_limit_400.json │ │ └── Phi_obs_length_limit_500.json │ ├── temperature/ │ │ ├── Llama31_8b_temp_0.json │ │ ├── Llama31_8b_temp_02.json │ │ ├── Llama31_8b_temp_04.json │ │ ├── Llama31_8b_temp_06.json │ │ ├── Llama31_8b_temp_08.json │ │ ├── Llama31_8b_temp_10.json │ │ ├── Llama31_8b_temp_12.json │ │ ├── Llama31_8b_temp_14.json │ │ ├── Llama31_8b_temp_16.json │ │ ├── Llama31_8b_temp_18.json │ │ ├── Llama31_8b_temp_20.json │ │ ├── Phi_temp_0.json │ │ ├── Phi_temp_02.json │ │ ├── Phi_temp_04.json │ │ ├── Phi_temp_06.json │ │ ├── Phi_temp_08.json │ │ ├── Phi_temp_12.json │ │ ├── Phi_temp_14.json │ │ ├── Phi_temp_16.json │ │ ├── Phi_temp_18.json │ │ └── Phi_temp_20.json │ └── top_p/ │ ├── Llama31_8b_top_p_01.json │ ├── Llama31_8b_top_p_02.json │ ├── Llama31_8b_top_p_03.json │ ├── Llama31_8b_top_p_04.json │ ├── Llama31_8b_top_p_05.json │ ├── Llama31_8b_top_p_06.json │ ├── Llama31_8b_top_p_07.json │ ├── Llama31_8b_top_p_08.json │ ├── Llama31_8b_top_p_1.json │ ├── Phi_top_p_01.json │ ├── Phi_top_p_02.json │ ├── Phi_top_p_03.json │ ├── Phi_top_p_04.json │ ├── Phi_top_p_05.json │ ├── Phi_top_p_06.json │ ├── Phi_top_p_07.json │ ├── Phi_top_p_08.json │ ├── Phi_top_p_09.json │ └── Phi_top_p_1.json ├── docker_setup.py ├── overthewire_bench/ │ ├── README.md │ ├── bandit.json │ ├── bandit_solved.json │ ├── bandit_solver.py │ ├── combine.py │ ├── combined_solved.json │ ├── krypton.json │ ├── krypton_solved.json │ ├── krypton_solver.py │ ├── leviathan.json │ ├── leviathan_solved.json │ ├── leviathan_solver.py │ ├── natas.json │ ├── natas_solved.json │ ├── natas_solver.py │ └── run_solvers.sh ├── pentest_agent.py ├── picoctf_bench/ │ ├── Dockerfile │ ├── README.md │ ├── benchmark.json │ ├── benchmark_solved.json │ └── challenge_solver.py ├── requirements.txt ├── run.py └── run_bench.py