gitextract_khe6fo7y/ ├── .gitattributes ├── .gitignore ├── BBH/ │ ├── args.py │ ├── auto_prompts/ │ │ ├── boolean_expressions.txt │ │ ├── causal_judgement.txt │ │ ├── date_understanding.txt │ │ ├── disambiguation_qa.txt │ │ ├── dyck_languages.txt │ │ ├── formal_fallacies.txt │ │ ├── geometric_shapes.txt │ │ ├── hyperbaton.txt │ │ ├── logical_deduction_five_objects.txt │ │ ├── logical_deduction_seven_objects.txt │ │ ├── logical_deduction_three_objects.txt │ │ ├── movie_recommendation.txt │ │ ├── multistep_arithmetic_two.txt │ │ ├── navigate.txt │ │ ├── object_counting.txt │ │ ├── penguins_in_a_table.txt │ │ ├── reasoning_about_colored_objects.txt │ │ ├── ruin_names.txt │ │ ├── salient_translation_error_detection.txt │ │ ├── snarks.txt │ │ ├── sports_understanding.txt │ │ ├── temporal_sequences.txt │ │ ├── tracking_shuffled_objects_five_objects.txt │ │ ├── tracking_shuffled_objects_seven_objects.txt │ │ ├── tracking_shuffled_objects_three_objects.txt │ │ ├── web_of_lies.txt │ │ └── word_sorting.txt │ ├── data/ │ │ ├── README.md │ │ ├── template_de.py │ │ ├── template_ga.py │ │ └── templates.py │ ├── eval.py │ ├── evoluter.py │ ├── evolution.py │ ├── lib_prompt/ │ │ ├── boolean_expressions.txt │ │ ├── causal_judgement.txt │ │ ├── date_understanding.txt │ │ ├── disambiguation_qa.txt │ │ ├── dyck_languages.txt │ │ ├── formal_fallacies.txt │ │ ├── geometric_shapes.txt │ │ ├── hyperbaton.txt │ │ ├── logical_deduction_five_objects.txt │ │ ├── logical_deduction_seven_objects.txt │ │ ├── logical_deduction_three_objects.txt │ │ ├── movie_recommendation.txt │ │ ├── multistep_arithmetic_two.txt │ │ ├── navigate.txt │ │ ├── object_counting.txt │ │ ├── penguins_in_a_table.txt │ │ ├── reasoning_about_colored_objects.txt │ │ ├── ruin_names.txt │ │ ├── salient_translation_error_detection.txt │ │ ├── snarks.txt │ │ ├── sports_understanding.txt │ │ ├── temporal_sequences.txt │ │ ├── tracking_shuffled_objects_five_objects.txt │ │ ├── tracking_shuffled_objects_seven_objects.txt │ │ ├── tracking_shuffled_objects_three_objects.txt │ │ ├── web_of_lies.txt │ │ └── word_sorting.txt │ ├── llm_client.py │ ├── prompts.txt │ ├── run.py │ ├── run_bbh.py │ ├── scripts/ │ │ ├── eval.sh │ │ ├── eval_0shot.sh │ │ ├── run_de_cot.sh │ │ └── run_ga_cot.sh │ └── utils.py ├── LICENSE.txt ├── README.md ├── args.py ├── auth.yaml ├── data/ │ ├── cls/ │ │ ├── agnews/ │ │ │ ├── prompts.txt │ │ │ ├── prompts_auto.txt │ │ │ ├── seed10/ │ │ │ │ ├── dev.txt │ │ │ │ ├── dev_500.txt │ │ │ │ └── test.txt │ │ │ ├── seed15/ │ │ │ │ ├── dev.txt │ │ │ │ ├── dev_500.txt │ │ │ │ └── test.txt │ │ │ └── seed5/ │ │ │ ├── dev.txt │ │ │ ├── dev_500.txt │ │ │ └── test.txt │ │ ├── baseline.json │ │ ├── cr/ │ │ │ ├── prompts.txt │ │ │ ├── prompts_auto.txt │ │ │ ├── seed10/ │ │ │ │ ├── dev.txt │ │ │ │ └── dev_500.txt │ │ │ ├── seed15/ │ │ │ │ ├── dev.txt │ │ │ │ └── dev_500.txt │ │ │ └── seed5/ │ │ │ ├── dev.txt │ │ │ └── dev_500.txt │ │ ├── mr/ │ │ │ ├── prompts.txt │ │ │ ├── prompts_auto.txt │ │ │ ├── seed10/ │ │ │ │ ├── dev.txt │ │ │ │ ├── dev_500.txt │ │ │ │ └── test.txt │ │ │ ├── seed15/ │ │ │ │ ├── dev.txt │ │ │ │ ├── dev_500.txt │ │ │ │ └── test.txt │ │ │ └── seed5/ │ │ │ ├── dev.txt │ │ │ ├── dev_500.txt │ │ │ └── test.txt │ │ ├── sst-5/ │ │ │ ├── prompts.txt │ │ │ ├── prompts_auto.txt │ │ │ ├── seed10/ │ │ │ │ ├── dev.txt │ │ │ │ ├── dev_500.txt │ │ │ │ └── test.txt │ │ │ ├── seed15/ │ │ │ │ ├── dev.txt │ │ │ │ ├── dev_500.txt │ │ │ │ └── test.txt │ │ │ └── seed5/ │ │ │ ├── dev.txt │ │ │ ├── dev_500.txt │ │ │ └── test.txt │ │ ├── sst2/ │ │ │ ├── prompts.txt │ │ │ ├── prompts_auto.txt │ │ │ ├── seed10/ │ │ │ │ ├── dev.txt │ │ │ │ └── dev_500.txt │ │ │ ├── seed15/ │ │ │ │ ├── dev.txt │ │ │ │ └── dev_500.txt │ │ │ └── seed5/ │ │ │ ├── dev.txt │ │ │ └── dev_500.txt │ │ ├── subj/ │ │ │ ├── prompts.txt │ │ │ ├── prompts_auto.txt │ │ │ ├── seed10/ │ │ │ │ ├── dev.txt │ │ │ │ └── dev_500.txt │ │ │ ├── seed15/ │ │ │ │ ├── dev.txt │ │ │ │ └── dev_500.txt │ │ │ └── seed5/ │ │ │ ├── dev.txt │ │ │ └── dev_500.txt │ │ └── trec/ │ │ ├── prompts.txt │ │ ├── prompts_auto.txt │ │ ├── seed10/ │ │ │ ├── dev.txt │ │ │ └── dev_500.txt │ │ ├── seed15/ │ │ │ ├── dev.txt │ │ │ └── dev_500.txt │ │ └── seed5/ │ │ ├── dev.txt │ │ └── dev_500.txt │ ├── sim/ │ │ └── asset/ │ │ ├── dev/ │ │ │ ├── asset.valid.simp.0 │ │ │ ├── asset.valid.simp.1 │ │ │ ├── asset.valid.simp.2 │ │ │ ├── asset.valid.simp.3 │ │ │ ├── asset.valid.simp.4 │ │ │ ├── asset.valid.simp.5 │ │ │ ├── asset.valid.simp.6 │ │ │ ├── asset.valid.simp.7 │ │ │ ├── asset.valid.simp.8 │ │ │ ├── asset.valid.simp.9 │ │ │ ├── asset.valid.src │ │ │ └── asset.valid.tgt │ │ ├── prompts.txt │ │ ├── prompts_auto.txt │ │ └── test/ │ │ ├── asset.test.simp.0 │ │ ├── asset.test.simp.1 │ │ ├── asset.test.simp.2 │ │ ├── asset.test.simp.3 │ │ ├── asset.test.simp.4 │ │ ├── asset.test.simp.5 │ │ ├── asset.test.simp.6 │ │ ├── asset.test.simp.7 │ │ ├── asset.test.simp.8 │ │ ├── asset.test.simp.9 │ │ ├── asset.test.src │ │ └── asset.test.tgt │ ├── sum/ │ │ └── sam/ │ │ ├── prompts.txt │ │ ├── prompts_auto.txt │ │ ├── test.src │ │ ├── test.tgt │ │ ├── valid.src │ │ └── valid.tgt │ ├── template_de.py │ ├── template_ga.py │ ├── template_v2.json │ └── templates.py ├── dataset.py ├── evaluator.py ├── evoluter.py ├── evolution.py ├── get_result.py ├── infer.py ├── llm_client.py ├── metrics.py ├── requirements.txt ├── run.py ├── scripts/ │ ├── cls/ │ │ ├── eval_single_alpaca.sh │ │ ├── run_de_alpaca.sh │ │ └── run_ga_alpaca.sh │ ├── sim/ │ │ ├── eval_single_alpaca.sh │ │ ├── eval_turbo.sh │ │ ├── run_de_alpaca.sh │ │ ├── run_de_gpt.sh │ │ ├── run_ga_alpaca.sh │ │ └── run_ga_gpt.sh │ └── sum/ │ ├── eval_single_alpaca.sh │ ├── eval_single_davinci.sh │ ├── run_de_alpaca.sh │ ├── run_de_gpt.sh │ ├── run_ga_alpaca.sh │ └── run_ga_gpt.sh └── utils.py