gitextract_hqsgken3/ ├── .gitattributes ├── .github/ │ ├── CODEOWNERS │ ├── ISSUE_TEMPLATE/ │ │ ├── bug_report.yml │ │ └── feature_request.yml │ ├── PULL_REQUEST_TEMPLATE.md │ ├── config.yml │ └── workflows/ │ ├── parse_yaml.py │ ├── run_tests.yaml │ └── test_eval.yaml ├── .gitignore ├── .pre-commit-config.yaml ├── LICENSE.md ├── MANIFEST.in ├── Makefile ├── README.md ├── SECURITY.md ├── docs/ │ ├── build-eval.md │ ├── completion-fn-protocol.md │ ├── completion-fns.md │ ├── custom-eval.md │ ├── eval-templates.md │ └── run-evals.md ├── evals/ │ ├── __init__.py │ ├── api.py │ ├── base.py │ ├── cli/ │ │ ├── oaieval.py │ │ └── oaievalset.py │ ├── completion_fns/ │ │ ├── __init__.py │ │ ├── cot.py │ │ ├── langchain_llm.py │ │ ├── langchain_math.py │ │ ├── openai.py │ │ ├── retrieval.py │ │ └── solver_completion_fn.py │ ├── data.py │ ├── data_test.py │ ├── elsuite/ │ │ ├── already_said_that/ │ │ │ ├── README.md │ │ │ ├── distractors.py │ │ │ ├── eval.py │ │ │ ├── prompts.py │ │ │ ├── scripts/ │ │ │ │ ├── data.sh │ │ │ │ ├── gen_data.py │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ ├── solvers.py │ │ │ ├── test_distractors.py │ │ │ └── utils.py │ │ ├── ballots/ │ │ │ ├── eval.py │ │ │ ├── prompts.py │ │ │ ├── readme.md │ │ │ ├── scripts/ │ │ │ │ ├── make_plots.py │ │ │ │ ├── run_experiments.sh │ │ │ │ └── toy_run_experiments.sh │ │ │ └── utils.py │ │ ├── basic/ │ │ │ ├── fuzzy_match.py │ │ │ ├── fuzzy_match_test.py │ │ │ ├── includes.py │ │ │ ├── includes_test.py │ │ │ ├── json_match.py │ │ │ ├── json_match_test.py │ │ │ ├── json_validator.py │ │ │ ├── json_validator_test.py │ │ │ ├── match.py │ │ │ ├── match_test.py │ │ │ └── match_with_solvers.py │ │ ├── bluff/ │ │ │ ├── README.md │ │ │ ├── bluff/ │ │ │ │ ├── __init__.py │ │ │ │ ├── cards.py │ │ │ │ ├── game.py │ │ │ │ ├── players.py │ │ │ │ ├── round.py │ │ │ │ ├── task_description.py │ │ │ │ └── test_bluff_game.py │ │ │ ├── eval.py │ │ │ ├── prompts.py │ │ │ ├── scripts/ │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ ├── solver_player.py │ │ │ └── strategy_solver.py │ │ ├── bugged_tools/ │ │ │ ├── README.md │ │ │ ├── bugged_tools.py │ │ │ ├── eval.py │ │ │ ├── scripts/ │ │ │ │ ├── plot_experiments.py │ │ │ │ └── run_experiments.sh │ │ │ ├── task_description.py │ │ │ ├── tools.py │ │ │ └── utils.py │ │ ├── cant_do_that_anymore/ │ │ │ ├── README.md │ │ │ ├── chess/ │ │ │ │ ├── board.py │ │ │ │ ├── board_test.py │ │ │ │ ├── move_variants.py │ │ │ │ ├── notation.py │ │ │ │ ├── pieces.py │ │ │ │ └── utils.py │ │ │ ├── defaults.py │ │ │ ├── eval.py │ │ │ ├── scripts/ │ │ │ │ ├── dataset_creation.py │ │ │ │ ├── diagonal_dataset_creation.py │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ └── utils.py │ │ ├── error_recovery/ │ │ │ ├── README.md │ │ │ ├── defaults.py │ │ │ ├── eval.py │ │ │ └── scripts/ │ │ │ ├── dataset_creation.py │ │ │ ├── make_plots.py │ │ │ └── run_experiments.sh │ │ ├── function_deduction/ │ │ │ ├── README.md │ │ │ ├── baselines.py │ │ │ ├── eval.py │ │ │ ├── prompts.py │ │ │ ├── scripts/ │ │ │ │ ├── dataset/ │ │ │ │ │ ├── create_dataset.py │ │ │ │ │ └── raw_code.txt │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ ├── solvers.py │ │ │ └── solvers_test.py │ │ ├── hr_ml_agent_bench/ │ │ │ ├── .gitignore │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── actions.py │ │ │ ├── auto_marking.py │ │ │ ├── autoeval.py │ │ │ ├── benchmarks/ │ │ │ │ ├── __init__.py │ │ │ │ ├── ant/ │ │ │ │ │ ├── baselines/ │ │ │ │ │ │ ├── human.py │ │ │ │ │ │ └── naive.py │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── environment.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ └── grade.py │ │ │ │ ├── bipedal_walker/ │ │ │ │ │ ├── baselines/ │ │ │ │ │ │ ├── human.py │ │ │ │ │ │ └── naive.py │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── environment.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ └── requirements.txt │ │ │ │ ├── cartpole/ │ │ │ │ │ ├── baselines/ │ │ │ │ │ │ ├── human.py │ │ │ │ │ │ └── naive.py │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── environment.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ └── requirements.txt │ │ │ │ ├── cifar10/ │ │ │ │ │ ├── .gitignore │ │ │ │ │ ├── env/ │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ ├── prepare.py │ │ │ │ │ ├── read_only_files.txt │ │ │ │ │ └── requirements.txt │ │ │ │ ├── feedback/ │ │ │ │ │ ├── .gitignore │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── data_description.txt │ │ │ │ │ │ ├── evaluation_details.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ ├── prepare.py │ │ │ │ │ ├── read_only_files.txt │ │ │ │ │ └── source_code.txt │ │ │ │ ├── house_price/ │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── data_description.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ ├── prepare.py │ │ │ │ │ └── read_only_files.txt │ │ │ │ ├── humanoid/ │ │ │ │ │ ├── baselines/ │ │ │ │ │ │ ├── human.py │ │ │ │ │ │ └── naive.py │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── environment.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ └── requirements.txt │ │ │ │ ├── imdb/ │ │ │ │ │ ├── env/ │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ └── requirements.txt │ │ │ │ ├── inverted_pendulum/ │ │ │ │ │ ├── baselines/ │ │ │ │ │ │ ├── human.py │ │ │ │ │ │ └── naive.py │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── environment.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ └── grade.py │ │ │ │ ├── ogbn_arxiv/ │ │ │ │ │ ├── env/ │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ ├── prepare.py │ │ │ │ │ ├── read_only_files.txt │ │ │ │ │ └── requirements.txt │ │ │ │ ├── parkinsons_disease/ │ │ │ │ │ ├── .gitignore │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── data_description.txt │ │ │ │ │ │ ├── evaluation_details.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ ├── prepare.py │ │ │ │ │ ├── read_only_files.txt │ │ │ │ │ └── source_code.txt │ │ │ │ ├── pong/ │ │ │ │ │ ├── baselines/ │ │ │ │ │ │ ├── human.py │ │ │ │ │ │ └── naive.py │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── environment.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ └── grade.py │ │ │ │ ├── pusher/ │ │ │ │ │ ├── baselines/ │ │ │ │ │ │ ├── human.py │ │ │ │ │ │ └── naive.py │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── environment.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ └── grade.py │ │ │ │ ├── spaceship_titanic/ │ │ │ │ │ ├── .gitignore │ │ │ │ │ ├── env/ │ │ │ │ │ │ ├── task_descriptor.txt │ │ │ │ │ │ └── train.py │ │ │ │ │ └── scripts/ │ │ │ │ │ ├── grade.py │ │ │ │ │ ├── prepare.py │ │ │ │ │ ├── read_only_files.txt │ │ │ │ │ ├── requirements.txt │ │ │ │ │ └── source_code.txt │ │ │ │ └── vectorization/ │ │ │ │ ├── env/ │ │ │ │ │ └── train.py │ │ │ │ └── scripts/ │ │ │ │ ├── grade.py │ │ │ │ └── human_baseline.py │ │ │ ├── devcontainer.json │ │ │ ├── environment.py │ │ │ ├── eval.py │ │ │ ├── high_level_actions.py │ │ │ ├── low_level_actions.py │ │ │ ├── prepare_task.py │ │ │ ├── prompts.py │ │ │ ├── requirements.txt │ │ │ ├── schema.py │ │ │ ├── scripts/ │ │ │ │ ├── install_all_requirements.sh │ │ │ │ ├── plot_experiments.py │ │ │ │ └── run_experiments.py │ │ │ ├── solvers/ │ │ │ │ └── baseline.py │ │ │ ├── tests/ │ │ │ │ └── test_actions.py │ │ │ └── utils.py │ │ ├── identifying_variables/ │ │ │ ├── .gitattributes │ │ │ ├── README.md │ │ │ ├── constants.py │ │ │ ├── eval.py │ │ │ ├── graph_utils.py │ │ │ ├── latent_funcs.py │ │ │ ├── metrics.py │ │ │ ├── prompts.py │ │ │ ├── renderers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base.py │ │ │ │ ├── corrset.py │ │ │ │ ├── tabular.py │ │ │ │ └── templates.py │ │ │ ├── scripts/ │ │ │ │ ├── data.sh │ │ │ │ ├── gen_data.py │ │ │ │ ├── make_plots.py │ │ │ │ ├── plotting_utils.py │ │ │ │ ├── run_experiments.sh │ │ │ │ └── table_utils.py │ │ │ ├── solvers.py │ │ │ ├── structs.py │ │ │ └── utils.py │ │ ├── lambada.py │ │ ├── make_me_pay/ │ │ │ ├── eval.py │ │ │ ├── makemepay.py │ │ │ ├── makemepay_test.py │ │ │ ├── readme.md │ │ │ ├── scripts/ │ │ │ │ ├── make_plots.py │ │ │ │ ├── run_experiments.sh │ │ │ │ ├── run_experiments_longer.sh │ │ │ │ └── run_experiments_personality.sh │ │ │ ├── solvers/ │ │ │ │ ├── lm_con_artist_solver.py │ │ │ │ └── prompts.py │ │ │ ├── task_description.py │ │ │ └── utils.py │ │ ├── make_me_say/ │ │ │ ├── autoeval.py │ │ │ ├── core.py │ │ │ ├── defaults.py │ │ │ ├── eval.py │ │ │ ├── makemesay_test.py │ │ │ ├── readme.md │ │ │ └── utils.py │ │ ├── mmmu/ │ │ │ └── eval.py │ │ ├── modelgraded/ │ │ │ ├── base.py │ │ │ ├── classify.py │ │ │ └── classify_utils.py │ │ ├── multiple_choice.py │ │ ├── multistep_web_tasks/ │ │ │ ├── README.md │ │ │ ├── constants.py │ │ │ ├── docker/ │ │ │ │ ├── dc-evals-bash/ │ │ │ │ │ └── Dockerfile │ │ │ │ ├── flask-playwright/ │ │ │ │ │ ├── Dockerfile │ │ │ │ │ └── app.py │ │ │ │ ├── gitlab/ │ │ │ │ │ └── entrypoint.sh │ │ │ │ └── homepage/ │ │ │ │ ├── Dockerfile │ │ │ │ ├── app.py │ │ │ │ ├── docker-entrypoint.sh │ │ │ │ ├── requirements.txt │ │ │ │ └── templates/ │ │ │ │ ├── calculator.html │ │ │ │ ├── index.html │ │ │ │ └── scratchpad.html │ │ │ ├── eval.py │ │ │ ├── reproducibility/ │ │ │ │ ├── CLEANUP.sh │ │ │ │ ├── all_tasks.json │ │ │ │ ├── make_plots.py │ │ │ │ ├── make_task_jsonl.py │ │ │ │ ├── run_environments.py │ │ │ │ ├── run_experiments.sh │ │ │ │ └── run_once.sh │ │ │ ├── session.py │ │ │ ├── solvers/ │ │ │ │ ├── strong_solver/ │ │ │ │ │ ├── strong_prompts.py │ │ │ │ │ └── strong_solver.py │ │ │ │ └── webarena_solvers/ │ │ │ │ ├── webarena_prompts.py │ │ │ │ └── webarena_solvers.py │ │ │ ├── utils.py │ │ │ └── webarena/ │ │ │ ├── .auth/ │ │ │ │ ├── gitlab.reddit_state.json │ │ │ │ ├── gitlab.shopping_admin_state.json │ │ │ │ ├── gitlab.shopping_state.json │ │ │ │ ├── gitlab_state.json │ │ │ │ ├── reddit_state.json │ │ │ │ ├── shopping.shopping_admin_state.json │ │ │ │ ├── shopping_admin_state.json │ │ │ │ └── shopping_state.json │ │ │ ├── LICENSE │ │ │ ├── bash_browser_env/ │ │ │ │ ├── bash_browser_env.py │ │ │ │ └── bash_browser_utils.py │ │ │ ├── bash_env/ │ │ │ │ ├── __init__.py │ │ │ │ ├── actions.py │ │ │ │ ├── bash_utils.py │ │ │ │ ├── basic_bash_env.py │ │ │ │ └── py.typed │ │ │ ├── browser_env/ │ │ │ │ ├── __init__.py │ │ │ │ ├── actions.py │ │ │ │ ├── auto_login.py │ │ │ │ ├── basic_browser_env.py │ │ │ │ ├── browser_utils.py │ │ │ │ ├── constants.py │ │ │ │ ├── env_config.py │ │ │ │ ├── helper_functions.py │ │ │ │ ├── processors.py │ │ │ │ └── py.typed │ │ │ ├── core/ │ │ │ │ ├── env.py │ │ │ │ ├── playwright_api.py │ │ │ │ └── utils.py │ │ │ ├── eval_run.py │ │ │ ├── evaluation_harness/ │ │ │ │ ├── __init__.py │ │ │ │ ├── evaluators.py │ │ │ │ └── helper_functions.py │ │ │ └── task_description.py │ │ ├── sandbagging/ │ │ │ ├── README.md │ │ │ ├── defaults.py │ │ │ ├── mmlu_eval.py │ │ │ ├── sandbagging_eval.py │ │ │ ├── scripts/ │ │ │ │ ├── consistency.sh │ │ │ │ ├── consistency_plots.py │ │ │ │ ├── sandbagging_all.sh │ │ │ │ ├── sandbagging_all_plots.py │ │ │ │ ├── sandbagging_subset.sh │ │ │ │ ├── sandbagging_subset_plots.py │ │ │ │ └── utils.py │ │ │ ├── solvers.py │ │ │ └── utils.py │ │ ├── schelling_point/ │ │ │ ├── README.md │ │ │ ├── eval.py │ │ │ ├── prompts.py │ │ │ └── utils.py │ │ ├── self_prompting/ │ │ │ ├── eval.py │ │ │ ├── readme.md │ │ │ ├── scripts/ │ │ │ │ ├── dataset/ │ │ │ │ │ ├── compile_data.py │ │ │ │ │ └── eval_list.py │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ ├── solvers/ │ │ │ │ ├── baselines.py │ │ │ │ └── custom_cot_solver.py │ │ │ └── task_description.py │ │ ├── skill_acquisition/ │ │ │ ├── eval.py │ │ │ ├── readme.md │ │ │ ├── scraping/ │ │ │ │ ├── human_rights.html │ │ │ │ ├── scrape_distractor_articles.py │ │ │ │ └── scrape_miskito.py │ │ │ ├── scripts/ │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ ├── solvers.py │ │ │ ├── task_description.py │ │ │ ├── test_skill_acquisition.py │ │ │ └── utils.py │ │ ├── solver_tools_convo.py │ │ ├── steganography/ │ │ │ ├── eval.py │ │ │ ├── monitor.py │ │ │ ├── prompts.py │ │ │ ├── readme.md │ │ │ ├── reconstruction_metrics.py │ │ │ ├── scripts/ │ │ │ │ ├── dataset/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── complexity_metrics.py │ │ │ │ │ ├── csv2jsonl.py │ │ │ │ │ ├── custom_datasets.py │ │ │ │ │ ├── dataset.py │ │ │ │ │ ├── requirements.txt │ │ │ │ │ └── utils.py │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ └── steganography.py │ │ ├── test/ │ │ │ └── match.py │ │ ├── text_compression/ │ │ │ ├── compression.py │ │ │ ├── eval.py │ │ │ ├── prompts.py │ │ │ ├── readme.md │ │ │ ├── reconstruction_metrics.py │ │ │ └── scripts/ │ │ │ ├── dataset/ │ │ │ │ ├── README.md │ │ │ │ ├── complexity_metrics.py │ │ │ │ ├── csv2jsonl.py │ │ │ │ ├── custom_datasets.py │ │ │ │ ├── dataset.py │ │ │ │ ├── requirements.txt │ │ │ │ └── utils.py │ │ │ ├── make_plots.py │ │ │ └── run_experiments.sh │ │ ├── theory_of_mind/ │ │ │ ├── readme.md │ │ │ └── scripts/ │ │ │ ├── data_generation.py │ │ │ ├── make_plots.py │ │ │ └── run_experiments.sh │ │ ├── track_the_stat/ │ │ │ ├── README.md │ │ │ ├── eval.py │ │ │ ├── prompts/ │ │ │ │ ├── __init__.py │ │ │ │ ├── median.py │ │ │ │ └── mode.py │ │ │ ├── scripts/ │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ ├── solvers.py │ │ │ └── utils.py │ │ ├── translate.py │ │ ├── twenty_questions/ │ │ │ ├── eval.py │ │ │ ├── readme.md │ │ │ ├── scripts/ │ │ │ │ ├── make_plots.py │ │ │ │ └── run_experiments.sh │ │ │ ├── test_utils.py │ │ │ └── utils.py │ │ ├── utils.py │ │ └── utils_test.py │ ├── eval.py │ ├── formatting.py │ ├── metrics.py │ ├── prompt/ │ │ └── base.py │ ├── record.py │ ├── record_test.py │ ├── registry/ │ │ ├── completion_fns/ │ │ │ ├── cot.yaml │ │ │ ├── langchain_chains.yaml │ │ │ └── langchain_llms.yaml │ │ ├── data/ │ │ │ ├── 2d_movement/ │ │ │ │ └── samples.jsonl │ │ │ ├── 3d_globe_movement/ │ │ │ │ └── samples.jsonl │ │ │ ├── 3d_object_manipulation/ │ │ │ │ └── samples.jsonl │ │ │ ├── Chinese_character_riddles/ │ │ │ │ └── samples.jsonl │ │ │ ├── GOL/ │ │ │ │ └── samples.jsonl │ │ │ ├── GPT-model-text-detection/ │ │ │ │ ├── samples.jsonl │ │ │ │ └── source.md │ │ │ ├── Japanese_onomatopoeia/ │ │ │ │ └── samples.jsonl │ │ │ ├── README.md │ │ │ ├── Unfamiliar-Chinese-Character/ │ │ │ │ └── samples.jsonl │ │ │ ├── ab/ │ │ │ │ └── samples.jsonl │ │ │ ├── aba_mrpc_true_false/ │ │ │ │ └── samples.jsonl │ │ │ ├── abstract-causal-reasoning/ │ │ │ │ ├── symbolic_samples.jsonl │ │ │ │ └── text_samples.jsonl │ │ │ ├── abstract2title/ │ │ │ │ └── samples.jsonl │ │ │ ├── accounting_audit/ │ │ │ │ └── samples.jsonl │ │ │ ├── actors-sequence/ │ │ │ │ └── samples.jsonl │ │ │ ├── adultery-state-laws/ │ │ │ │ └── samples.jsonl │ │ │ ├── afrikaans-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── aime_evaluation/ │ │ │ │ └── samples.jsonl │ │ │ ├── albanian-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── algebra_word_problems/ │ │ │ │ └── samples.jsonl │ │ │ ├── allergen-information/ │ │ │ │ └── samples.jsonl │ │ │ ├── already_said_that/ │ │ │ │ ├── 500_100.jsonl │ │ │ │ └── LICENSE │ │ │ ├── alternate_numeral_systems/ │ │ │ │ └── samples.jsonl │ │ │ ├── ambiguous-sentences/ │ │ │ │ └── samples.jsonl │ │ │ ├── anagrams/ │ │ │ │ ├── fewshot.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── arabic-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── arabic-literature-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── arc/ │ │ │ │ └── samples.jsonl │ │ │ ├── arithmetic-expression/ │ │ │ │ ├── labeled-samples.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── arithmetical_puzzles/ │ │ │ │ └── arithmetical_puzzles.jsonl │ │ │ ├── ascii-digit-recognition/ │ │ │ │ └── samples.jsonl │ │ │ ├── ascii_wordart/ │ │ │ │ └── ascii_wordart.jsonl │ │ │ ├── asl-classifiers/ │ │ │ │ └── samples.jsonl │ │ │ ├── astro_eval/ │ │ │ │ └── samples.jsonl │ │ │ ├── atpl_exams/ │ │ │ │ └── samples.jsonl │ │ │ ├── automata-and-complexity/ │ │ │ │ └── samples.jsonl │ │ │ ├── backgammon/ │ │ │ │ ├── backgammon-can-hit.jsonl │ │ │ │ ├── backgammon-illegal-move.jsonl │ │ │ │ └── generate_samples.ipynb │ │ │ ├── balance_chemical_equation/ │ │ │ │ └── samples.jsonl │ │ │ ├── ballots/ │ │ │ │ ├── LICENSE │ │ │ │ ├── samples02.jsonl │ │ │ │ └── samples25.jsonl │ │ │ ├── banking77/ │ │ │ │ └── samples.jsonl │ │ │ ├── base64_decode/ │ │ │ │ └── base64_decode.jsonl │ │ │ ├── beam_analysis/ │ │ │ │ └── beam-analysis.jsonl │ │ │ ├── belarusian_antonyms/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_grammar/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_numerals/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_orthography/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_proverbs/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_rhyme/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_russian_translation/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_syllable_count/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_synonyms/ │ │ │ │ └── samples.jsonl │ │ │ ├── belarusian_word_analogy_inflection/ │ │ │ │ └── samples.jsonl │ │ │ ├── benjaminmoore_to_hex/ │ │ │ │ └── samples.jsonl │ │ │ ├── bias_detection/ │ │ │ │ └── samples.jsonl │ │ │ ├── bigrams/ │ │ │ │ └── samples.jsonl │ │ │ ├── bitwise/ │ │ │ │ └── samples.jsonl │ │ │ ├── blackfoot-numerals-modern/ │ │ │ │ └── samples.jsonl │ │ │ ├── body_movement/ │ │ │ │ └── body_movement.jsonl │ │ │ ├── born_first/ │ │ │ │ └── born_first.jsonl │ │ │ ├── brazilian-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── brazilian_laws/ │ │ │ │ └── samples.jsonl │ │ │ ├── bugged_tools/ │ │ │ │ ├── main.jsonl │ │ │ │ └── main_small.jsonl │ │ │ ├── building_floorplan/ │ │ │ │ └── samples.jsonl │ │ │ ├── bulgarian-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── bulgarian-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── cant_do_that_anymore/ │ │ │ │ ├── diagonal_moves_dataset.jsonl │ │ │ │ ├── gpt-3.5-turbo-0125_dataset.jsonl │ │ │ │ ├── gpt-3.5-turbo-instruct_dataset.jsonl │ │ │ │ ├── gpt-4-0125-preview_dataset.jsonl │ │ │ │ ├── gpt-4-0314_dataset.jsonl │ │ │ │ └── special_moves_dataset.jsonl │ │ │ ├── canto_wu_pronunciation/ │ │ │ │ ├── csv_to_json.py │ │ │ │ ├── data_raw.csv │ │ │ │ ├── samples_few.jsonl │ │ │ │ └── samples_zero.jsonl │ │ │ ├── cardinal-directions/ │ │ │ │ └── samples.jsonl │ │ │ ├── categorize_with_distractors/ │ │ │ │ └── samples.jsonl │ │ │ ├── chess/ │ │ │ │ └── match.jsonl │ │ │ ├── chess_piece_count/ │ │ │ │ └── fuzzy_match.jsonl │ │ │ ├── chinese-lantern-riddles/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese-remainder-theorem/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_ancient_masterpieces_dynasty/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_ancient_poetry/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_chu_ci/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_famous_novel/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_hard_translations/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_homonym/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_homophonic/ │ │ │ │ └── chinese_homophonic.jsonl │ │ │ ├── chinese_idioms/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_modern_poem_identification/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_poem/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_shi_jing/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_song_ci/ │ │ │ │ └── samples.jsonl │ │ │ ├── chinese_tang_poetries/ │ │ │ │ └── sample.jsonl │ │ │ ├── chinese_zodiac/ │ │ │ │ └── samples.jsonl │ │ │ ├── cissp-study-questions/ │ │ │ │ ├── few_shot.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── code_combination/ │ │ │ │ └── samples.jsonl │ │ │ ├── code_progress/ │ │ │ │ └── samples.jsonl │ │ │ ├── color_theory/ │ │ │ │ └── complementary.jsonl │ │ │ ├── compare-countries-area/ │ │ │ │ └── samples.jsonl │ │ │ ├── complex-analogies-en-ru/ │ │ │ │ └── samples.jsonl │ │ │ ├── complex_replace_characters/ │ │ │ │ └── samples.jsonl │ │ │ ├── comprehensive-graph-reasoning/ │ │ │ │ └── samples.jsonl │ │ │ ├── confusing_korean/ │ │ │ │ └── samples.jsonl │ │ │ ├── connect4/ │ │ │ │ └── samples.jsonl │ │ │ ├── consensus_summary/ │ │ │ │ └── samples.jsonl │ │ │ ├── context-free-grammar/ │ │ │ │ └── samples.jsonl │ │ │ ├── convert-bwt-num-and-chinese-num/ │ │ │ │ ├── c_lower_to_n_samples_few_shot.jsonl │ │ │ │ ├── c_upper_to_n_samples_few_shot.jsonl │ │ │ │ ├── n_to_c_lower_samples_few_shot.jsonl │ │ │ │ └── n_to_c_upper_samples_few_shot.jsonl │ │ │ ├── convert-hex-hsl-lightness/ │ │ │ │ └── samples.jsonl │ │ │ ├── coq-editing/ │ │ │ │ ├── labeled-samples.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── coq-proof-step/ │ │ │ │ └── match.jsonl │ │ │ ├── coqa/ │ │ │ │ ├── match.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── corr2cause/ │ │ │ │ └── corr2cause.jsonl │ │ │ ├── count_intersections_polynomial/ │ │ │ │ └── samples.jsonl │ │ │ ├── count_token_freq_dna/ │ │ │ │ └── samples.jsonl │ │ │ ├── counterfactual-reasoning/ │ │ │ │ └── counterfactual_reasoning_samples.jsonl │ │ │ ├── countries/ │ │ │ │ └── samples.jsonl │ │ │ ├── crepe/ │ │ │ │ └── samples.jsonl │ │ │ ├── cricket_situations/ │ │ │ │ └── samples.jsonl │ │ │ ├── croatian-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── crontab/ │ │ │ │ └── samples.jsonl │ │ │ ├── csharp-linq/ │ │ │ │ └── questions.jsonl │ │ │ ├── css-selectors/ │ │ │ │ ├── explain.jsonl │ │ │ │ └── verbal.jsonl │ │ │ ├── cube-pack/ │ │ │ │ └── samples.jsonl │ │ │ ├── cybersecurity/ │ │ │ │ └── filepaths.jsonl │ │ │ ├── date-booking/ │ │ │ │ └── samples.jsonl │ │ │ ├── date-calculator/ │ │ │ │ └── samples.jsonl │ │ │ ├── day-of-week-from-date/ │ │ │ │ └── samples.jsonl │ │ │ ├── decrypt_caesar_cipher/ │ │ │ │ └── samples.jsonl │ │ │ ├── detect-hshd/ │ │ │ │ └── detect-hshd.jsonl │ │ │ ├── determinant/ │ │ │ │ └── samples.jsonl │ │ │ ├── dhammapada-reference/ │ │ │ │ └── samples.jsonl │ │ │ ├── diabetes/ │ │ │ │ └── samples.jsonl │ │ │ ├── diagrammatic_logic/ │ │ │ │ └── samples.jsonl │ │ │ ├── dice-rotation-sequence/ │ │ │ │ └── samples.jsonl │ │ │ ├── direct-speech-tag/ │ │ │ │ └── samples.jsonl │ │ │ ├── directions/ │ │ │ │ └── samples.jsonl │ │ │ ├── dna_melting_calculation/ │ │ │ │ └── samples.jsonl │ │ │ ├── dutch-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── dutch-rhymes/ │ │ │ │ └── samples.jsonl │ │ │ ├── emoji_riddle/ │ │ │ │ └── fuzzy_match.jsonl │ │ │ ├── emotional-intelligence/ │ │ │ │ └── samples.jsonl │ │ │ ├── error_recovery/ │ │ │ │ ├── main.jsonl │ │ │ │ ├── medium.jsonl │ │ │ │ └── small.jsonl │ │ │ ├── escher_sentences/ │ │ │ │ └── samples.jsonl │ │ │ ├── euler_problems/ │ │ │ │ └── euler_problems.jsonl │ │ │ ├── european_date_format_challenge/ │ │ │ │ └── samples.jsonl │ │ │ ├── event_categories/ │ │ │ │ └── samples.jsonl │ │ │ ├── fcc_amateur_extra/ │ │ │ │ └── samples.jsonl │ │ │ ├── finance/ │ │ │ │ └── credit.jsonl │ │ │ ├── finance_calc/ │ │ │ │ └── samples.jsonl │ │ │ ├── financial-derivatives/ │ │ │ │ └── questions.jsonl │ │ │ ├── find-letter/ │ │ │ │ └── samples.jsonl │ │ │ ├── find-thirukkural/ │ │ │ │ └── samples.jsonl │ │ │ ├── find_country_from_svg/ │ │ │ │ └── samples.jsonl │ │ │ ├── finger-tracking/ │ │ │ │ └── samples.jsonl │ │ │ ├── finnish-rhyme/ │ │ │ │ └── samples.jsonl │ │ │ ├── first-letters/ │ │ │ │ └── samples.jsonl │ │ │ ├── food/ │ │ │ │ └── samples.jsonl │ │ │ ├── formal-grammar-to-regex/ │ │ │ │ └── formal-grammar-to-regex.jsonl │ │ │ ├── formal_logic/ │ │ │ │ └── formal_logic_expressions.jsonl │ │ │ ├── forth_stack_sim/ │ │ │ │ ├── basic_samples.jsonl │ │ │ │ ├── detailed_samples.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── french-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── french-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── french-part-of-speech/ │ │ │ │ └── samples.jsonl │ │ │ ├── french_homonym_and_homograph/ │ │ │ │ └── samples.jsonl │ │ │ ├── function_deduction/ │ │ │ │ └── data.jsonl │ │ │ ├── game_theory/ │ │ │ │ └── samples.jsonl │ │ │ ├── gears_rotation/ │ │ │ │ └── samples.jsonl │ │ │ ├── geometry_puzzle/ │ │ │ │ └── samples.jsonl │ │ │ ├── german-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── german-part-of-speech/ │ │ │ │ ├── buildDataDe.py │ │ │ │ ├── parsePosDe.py │ │ │ │ ├── promptDe.txt │ │ │ │ └── samples.jsonl │ │ │ ├── gpt-protocol-buffers/ │ │ │ │ └── samples.jsonl │ │ │ ├── greek_nt_manuscripts/ │ │ │ │ └── codes-sigla-centuries.jsonl │ │ │ ├── greek_vocabulary/ │ │ │ │ └── samples.jsonl │ │ │ ├── gregorian-to-hebrew-date/ │ │ │ │ └── samples.jsonl │ │ │ ├── guess_the_singer/ │ │ │ │ └── samples.jsonl │ │ │ ├── gujarati_numerals/ │ │ │ │ └── samples.jsonl │ │ │ ├── hard_russian_computer_science_tasks/ │ │ │ │ └── samples.jsonl │ │ │ ├── heart-disease/ │ │ │ │ └── samples.jsonl │ │ │ ├── hebrew_bible/ │ │ │ │ └── samples.jsonl │ │ │ ├── hebrew_grammar/ │ │ │ │ └── samples.jsonl │ │ │ ├── hebrew_homophones/ │ │ │ │ └── samples.jsonl │ │ │ ├── hebrew_plurals/ │ │ │ │ └── samples.jsonl │ │ │ ├── hebrew_rhyme/ │ │ │ │ └── samples.jsonl │ │ │ ├── hebrew_same_noun_gender/ │ │ │ │ └── samples.jsonl │ │ │ ├── hebrew_talmud_suka/ │ │ │ │ └── samples.jsonl │ │ │ ├── hindi_shuddha/ │ │ │ │ └── samples.jsonl │ │ │ ├── hindi_upsc/ │ │ │ │ └── samples.jsonl │ │ │ ├── hindi_words/ │ │ │ │ └── samples.jsonl │ │ │ ├── historical-kana-orthography-reading/ │ │ │ │ └── samples.jsonl │ │ │ ├── hr_ml_agent_bench/ │ │ │ │ ├── .gitattributes │ │ │ │ ├── .gitignore │ │ │ │ ├── LICENSE │ │ │ │ ├── ant/ │ │ │ │ │ ├── cpu.jsonl │ │ │ │ │ └── gpu.jsonl │ │ │ │ ├── bipedal-walker.jsonl │ │ │ │ ├── cartpole.jsonl │ │ │ │ ├── cifar10.jsonl │ │ │ │ ├── feedback/ │ │ │ │ │ ├── dataset/ │ │ │ │ │ │ └── train.csv │ │ │ │ │ └── feedback.jsonl │ │ │ │ ├── house_price/ │ │ │ │ │ ├── dataset/ │ │ │ │ │ │ └── train.csv │ │ │ │ │ └── house-price.jsonl │ │ │ │ ├── humanoid/ │ │ │ │ │ ├── cpu.jsonl │ │ │ │ │ └── gpu.jsonl │ │ │ │ ├── imdb.jsonl │ │ │ │ ├── inverted-pendulum.jsonl │ │ │ │ ├── ogbn_arxiv/ │ │ │ │ │ ├── dataset/ │ │ │ │ │ │ └── baseline.csv │ │ │ │ │ └── ogbn-arxiv.jsonl │ │ │ │ ├── parkinsons_disease/ │ │ │ │ │ ├── dataset/ │ │ │ │ │ │ ├── public_timeseries_testing_util.py │ │ │ │ │ │ ├── supplemental_clinical_data.csv │ │ │ │ │ │ ├── train_clinical_data.csv │ │ │ │ │ │ ├── train_peptides.csv │ │ │ │ │ │ └── train_proteins.csv │ │ │ │ │ └── parkinsons-disease.jsonl │ │ │ │ ├── pong/ │ │ │ │ │ ├── cpu.jsonl │ │ │ │ │ └── gpu.jsonl │ │ │ │ ├── pusher.jsonl │ │ │ │ ├── spaceship_titanic/ │ │ │ │ │ ├── dataset/ │ │ │ │ │ │ └── train.csv │ │ │ │ │ └── spaceship-titanic.jsonl │ │ │ │ └── vectorization.jsonl │ │ │ ├── human-safety/ │ │ │ │ └── human-safety.jsonl │ │ │ ├── hungarian-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── iambic-pentameter/ │ │ │ │ └── samples.jsonl │ │ │ ├── icelandic-inflection-easy/ │ │ │ │ └── samples.jsonl │ │ │ ├── icelandic-inflection-hard/ │ │ │ │ └── samples.jsonl │ │ │ ├── icelandic-inflection-medium/ │ │ │ │ └── samples.jsonl │ │ │ ├── icelandic-sentences-gec/ │ │ │ │ └── samples.jsonl │ │ │ ├── identifying_variables/ │ │ │ │ ├── balanced_ctrl_vars.jsonl │ │ │ │ └── balanced_hypotheses.jsonl │ │ │ ├── illinois-law/ │ │ │ │ └── samples.jsonl │ │ │ ├── imo_exact_answers/ │ │ │ │ └── samples.jsonl │ │ │ ├── imperial_date_to_string/ │ │ │ │ └── samples.jsonl │ │ │ ├── incontext_rl/ │ │ │ │ ├── samples.jsonl │ │ │ │ ├── samples_dev.jsonl │ │ │ │ └── samples_gymnasium_only.jsonl │ │ │ ├── indonesian_numbers/ │ │ │ │ └── indonesian_numbers.jsonl │ │ │ ├── infiniteloop-match/ │ │ │ │ └── infiniteloop-match.jsonl │ │ │ ├── integer-sequence-predictions/ │ │ │ │ ├── misc-and-recent-sequences.jsonl │ │ │ │ ├── misc-recent-sequences-info.txt │ │ │ │ ├── notable-sequences-info.txt │ │ │ │ ├── notable-sequences.jsonl │ │ │ │ ├── obscure-sequences-info.txt │ │ │ │ ├── obscure-sequences.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── interlingual-homograph/ │ │ │ │ └── samples.jsonl │ │ │ ├── internal_representations/ │ │ │ │ └── samples.jsonl │ │ │ ├── invert_word_wise/ │ │ │ │ └── invert.jsonl │ │ │ ├── invoice_due_date_leap_day_adjustment/ │ │ │ │ └── samples.jsonl │ │ │ ├── invoices/ │ │ │ │ └── match.jsonl │ │ │ ├── iqbal-poetry-translation/ │ │ │ │ ├── labeled-samples.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── irish-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── irish_plural_nouns/ │ │ │ │ └── samples.jsonl │ │ │ ├── irony/ │ │ │ │ └── samples.jsonl │ │ │ ├── irrelevant-negative-diversion/ │ │ │ │ └── irrelevant-negative-diversion.jsonl │ │ │ ├── islands/ │ │ │ │ └── japanese_remote_island_to_prefecture.jsonl │ │ │ ├── isosceles-right-triangle/ │ │ │ │ └── samples.jsonl │ │ │ ├── italian-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── italian-new-words/ │ │ │ │ └── samples.jsonl │ │ │ ├── italian_big_math_expression/ │ │ │ │ └── samples.jsonl │ │ │ ├── italian_rhyme/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese-decimal-units/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese-itpassport-exam01/ │ │ │ │ └── japanese-itpassport-exam01.jsonl │ │ │ ├── japanese-national-medical-exam01/ │ │ │ │ └── japanese-national-medical-exam01.jsonl │ │ │ ├── japanese-national-medical-exam02/ │ │ │ │ └── japanese-national-medical-exam02.jsonl │ │ │ ├── japanese-station/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese_approval/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese_city_name_pronunciation/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese_driving_license/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese_mahjong_discard_tile/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese_number_reading/ │ │ │ │ └── japanese_number_reading.jsonl │ │ │ ├── japanese_populer_video_game_title_and_the_publisher/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese_prime_minister/ │ │ │ │ └── samples.jsonl │ │ │ ├── japanese_romantic_context/ │ │ │ │ └── samples.jsonl │ │ │ ├── jee-math/ │ │ │ │ └── samples.jsonl │ │ │ ├── job_listing_title_for_a_caregiver_in_japan/ │ │ │ │ └── samples.jsonl │ │ │ ├── json_patch_object/ │ │ │ │ └── samples.jsonl │ │ │ ├── kanji-idioms/ │ │ │ │ └── samples.jsonl │ │ │ ├── knot-theory/ │ │ │ │ ├── knot-theory-code-conversions.jsonl │ │ │ │ ├── knot-theory-unknotting-numbers.jsonl │ │ │ │ └── knot-theory-unknotting-problems.jsonl │ │ │ ├── korean-consonant-vowel-combination/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean-honorific/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean-phonetics/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean-postposition/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean_date_counting/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean_dialects/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean_foreign_words/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean_romanization/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean_spaces/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean_spelling/ │ │ │ │ └── samples.jsonl │ │ │ ├── korean_yaminjeongeum/ │ │ │ │ └── samples.jsonl │ │ │ ├── largest_country/ │ │ │ │ └── samples.jsonl │ │ │ ├── last_word_nth/ │ │ │ │ └── samples.jsonl │ │ │ ├── lat_long_identify/ │ │ │ │ └── samples.jsonl │ │ │ ├── latin_grammar/ │ │ │ │ └── samples.jsonl │ │ │ ├── linear-regression/ │ │ │ │ ├── labeled-samples.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── linear_equations/ │ │ │ │ └── samples.jsonl │ │ │ ├── list_comparison_missing_name/ │ │ │ │ └── samples.jsonl │ │ │ ├── lithuanian-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── logic/ │ │ │ │ └── samples.jsonl │ │ │ ├── logic-container/ │ │ │ │ └── samples.jsonl │ │ │ ├── logic-grid/ │ │ │ │ └── logic-grid.jsonl │ │ │ ├── logic-liar-paradox/ │ │ │ │ └── samples.jsonl │ │ │ ├── logic-riddles/ │ │ │ │ └── samples.jsonl │ │ │ ├── logic-statements/ │ │ │ │ └── logic-statements.jsonl │ │ │ ├── logic_and_probability/ │ │ │ │ └── logic_and_probability.jsonl │ │ │ ├── logical-black-scholes/ │ │ │ │ └── samples.jsonl │ │ │ ├── logical_counting/ │ │ │ │ └── samples.jsonl │ │ │ ├── logical_reasoning_letter_series_test/ │ │ │ │ └── samples.jsonl │ │ │ ├── logiqa/ │ │ │ │ └── logiqa.jsonl │ │ │ ├── logiqa-logical-reasoning-plus/ │ │ │ │ ├── logiqa-logical-reasoning-plus.jsonl │ │ │ │ ├── logiqav2-logical-reasoning-plus.jsonl │ │ │ │ └── reclor-logical-reasoning-plus.jsonl │ │ │ ├── loss_logic/ │ │ │ │ └── samples.jsonl │ │ │ ├── lunar_calendar/ │ │ │ │ ├── iso_to_lunar_calendar.jsonl │ │ │ │ └── lunar_calendar_to_iso.jsonl │ │ │ ├── macedonian-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── make_me_say/ │ │ │ │ ├── easy.jsonl │ │ │ │ ├── hard.jsonl │ │ │ │ ├── medium-and-hard.jsonl │ │ │ │ ├── medium.jsonl │ │ │ │ └── very-hard.jsonl │ │ │ ├── mandaliof-table/ │ │ │ │ └── samples.jsonl │ │ │ ├── manga-translation/ │ │ │ │ ├── bubbles.jsonl │ │ │ │ ├── pages.jsonl │ │ │ │ └── panels.jsonl │ │ │ ├── map-electronic-component-part-to-fact/ │ │ │ │ └── samples.jsonl │ │ │ ├── mapping_to_matricies/ │ │ │ │ ├── data_generator.py │ │ │ │ └── samples.jsonl │ │ │ ├── marxist_philosophy_exam/ │ │ │ │ └── fuzzy_match.jsonl │ │ │ ├── mate-in-one/ │ │ │ │ └── samples.jsonl │ │ │ ├── math-derivatives/ │ │ │ │ └── questions.jsonl │ │ │ ├── math_equations/ │ │ │ │ └── math_equations.jsonl │ │ │ ├── math_for_5th-grader/ │ │ │ │ └── samples.jsonl │ │ │ ├── math_logic_operations/ │ │ │ │ └── samples.jsonl │ │ │ ├── math_polish/ │ │ │ │ └── samples.jsonl │ │ │ ├── matrix_mult_rows/ │ │ │ │ └── samples.jsonl │ │ │ ├── mazes/ │ │ │ │ ├── 10x10-mazes-singlemove.jsonl │ │ │ │ ├── 10x10-mazes.jsonl │ │ │ │ ├── 3x3-mazes-singlemove.jsonl │ │ │ │ ├── 3x3-mazes.jsonl │ │ │ │ ├── 4x4-mazes-singlemove.jsonl │ │ │ │ ├── 4x4-mazes.jsonl │ │ │ │ └── nxn_maze_eval_generator.py │ │ │ ├── medication_dose/ │ │ │ │ └── samples.jsonl │ │ │ ├── medmcqa/ │ │ │ │ ├── convert.js │ │ │ │ └── samples.jsonl │ │ │ ├── mendelian_inheritance/ │ │ │ │ └── samples.jsonl │ │ │ ├── missing_operators/ │ │ │ │ └── samples.jsonl │ │ │ ├── monthly_metric_comparison/ │ │ │ │ └── samples.jsonl │ │ │ ├── moral_exceptQA/ │ │ │ │ └── samples.jsonl │ │ │ ├── multi-step-equations/ │ │ │ │ └── samples.jsonl │ │ │ ├── multistep-web-tasks/ │ │ │ │ ├── all_tasks.jsonl │ │ │ │ ├── easy_tasks.jsonl │ │ │ │ ├── hard_tasks.jsonl │ │ │ │ ├── medium_tasks.jsonl │ │ │ │ ├── simple.jsonl │ │ │ │ ├── task_1.jsonl │ │ │ │ ├── task_2.jsonl │ │ │ │ ├── task_3.jsonl │ │ │ │ ├── task_4.jsonl │ │ │ │ ├── task_5.jsonl │ │ │ │ ├── task_6.jsonl │ │ │ │ ├── task_7.jsonl │ │ │ │ ├── task_8.jsonl │ │ │ │ └── task_9.jsonl │ │ │ ├── multistep-word-problems/ │ │ │ │ └── samples.jsonl │ │ │ ├── music-theory/ │ │ │ │ ├── tetrads-few-shot.jsonl │ │ │ │ ├── tetrads-samples.jsonl │ │ │ │ ├── triads-few-shot.jsonl │ │ │ │ └── triads-samples.jsonl │ │ │ ├── music_theory/ │ │ │ │ ├── music_theory_chord_names.jsonl │ │ │ │ └── music_theory_chord_notes.jsonl │ │ │ ├── music_theory_scale_modes/ │ │ │ │ └── samples.jsonl │ │ │ ├── naughty_strings/ │ │ │ │ ├── samples.jsonl │ │ │ │ └── security.jsonl │ │ │ ├── nepali-song-singer/ │ │ │ │ └── nepali-song-singer.jsonl │ │ │ ├── nepali_numerals/ │ │ │ │ └── samples.jsonl │ │ │ ├── ner_finance/ │ │ │ │ └── samples.jsonl │ │ │ ├── newsology/ │ │ │ │ └── samples.jsonl │ │ │ ├── next-val-series/ │ │ │ │ └── next-val-series.jsonl │ │ │ ├── nfl-point-combinations/ │ │ │ │ ├── combinations_generator.py │ │ │ │ └── samples.jsonl │ │ │ ├── non-compound-names/ │ │ │ │ ├── samples.jsonl │ │ │ │ └── samples_meta.jsonl │ │ │ ├── norwegian-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── norwegian-rhymes/ │ │ │ │ └── samples.jsonl │ │ │ ├── number_pattern/ │ │ │ │ └── samples.jsonl │ │ │ ├── number_reading/ │ │ │ │ └── number_reading.jsonl │ │ │ ├── number_series_test/ │ │ │ │ └── samples.jsonl │ │ │ ├── numbers_game/ │ │ │ │ └── samples.jsonl │ │ │ ├── numeral-type-comparisons/ │ │ │ │ └── samples.jsonl │ │ │ ├── numerical-cabbala-casanova/ │ │ │ │ └── samples.jsonl │ │ │ ├── nutrition/ │ │ │ │ └── facts.jsonl │ │ │ ├── ordered-history-events/ │ │ │ │ └── samples.jsonl │ │ │ ├── ordering_randomised_versionlist/ │ │ │ │ └── samples.jsonl │ │ │ ├── osm_mapping/ │ │ │ │ └── osm_mapping_one_way.jsonl │ │ │ ├── override-system-instruction/ │ │ │ │ └── samples.jsonl │ │ │ ├── pantone_to_hex/ │ │ │ │ └── samples.jsonl │ │ │ ├── parable-to-moral-match/ │ │ │ │ ├── parable-to-moral-match-en.jsonl │ │ │ │ └── parable-to-moral-match-zh.jsonl │ │ │ ├── pararule-plus-multi-step-deductive-reasoning/ │ │ │ │ └── pararule-plus-multi-step-deductive-reasoning.jsonl │ │ │ ├── partially_solved_crossword_clues/ │ │ │ │ └── samples.jsonl │ │ │ ├── passing-balls/ │ │ │ │ └── passing-balls.jsonl │ │ │ ├── path_enclosed_area/ │ │ │ │ └── samples.jsonl │ │ │ ├── pattern_identification/ │ │ │ │ └── samples.v0.jsonl │ │ │ ├── persian-kinship-riddles/ │ │ │ │ └── samples.jsonl │ │ │ ├── ph_calculation/ │ │ │ │ └── samples.jsonl │ │ │ ├── phonetics-identify-words-needing-missing-gpcs/ │ │ │ │ └── samples.jsonl │ │ │ ├── physics-interaction/ │ │ │ │ └── samples.jsonl │ │ │ ├── pointer-value-retrieval/ │ │ │ │ ├── easy_few_examples.jsonl │ │ │ │ ├── easy_many_examples.jsonl │ │ │ │ ├── hard_few_examples.jsonl │ │ │ │ ├── hard_many_examples.jsonl │ │ │ │ ├── medium_few_examples.jsonl │ │ │ │ └── medium_many_examples.jsonl │ │ │ ├── points_on_line/ │ │ │ │ ├── eval_generator.py │ │ │ │ └── points_on_line.jsonl │ │ │ ├── poker_analysis/ │ │ │ │ ├── poker_analysis_sample_generator.py │ │ │ │ └── samples.jsonl │ │ │ ├── poker_hand_ranks/ │ │ │ │ └── full_samples.jsonl │ │ │ ├── polish-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── polish-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── polish-proverbs/ │ │ │ │ └── samples.jsonl │ │ │ ├── polish-syllable-count/ │ │ │ │ └── samples.jsonl │ │ │ ├── polish_rhymes_generation/ │ │ │ │ └── samples.jsonl │ │ │ ├── population_span_extraction/ │ │ │ │ └── samples.jsonl │ │ │ ├── portuguese-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── portuguese-kinship-riddles/ │ │ │ │ └── samples.jsonl │ │ │ ├── portuguese-sarcasm/ │ │ │ │ └── samples.jsonl │ │ │ ├── portuguese-syllable-count/ │ │ │ │ └── samples.jsonl │ │ │ ├── positive-binary-operations/ │ │ │ │ ├── fewshot.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── premature-conclusions/ │ │ │ │ └── samples.jsonl │ │ │ ├── probabilities-word-problems/ │ │ │ │ └── samples.jsonl │ │ │ ├── probability_questions/ │ │ │ │ └── probability_questions.jsonl │ │ │ ├── product-ie/ │ │ │ │ ├── fewshot/ │ │ │ │ │ └── product_ie_one_shot_samples.jsonl │ │ │ │ └── zeroshot/ │ │ │ │ └── product_ie_zero_shot_samples.jsonl │ │ │ ├── product-matching/ │ │ │ │ ├── fewshot/ │ │ │ │ │ └── samples.jsonl │ │ │ │ ├── rules/ │ │ │ │ │ └── samples.jsonl │ │ │ │ └── zeroshot/ │ │ │ │ └── samples.jsonl │ │ │ ├── prompt-injection/ │ │ │ │ └── samples.jsonl │ │ │ ├── proofreader/ │ │ │ │ └── samples.jsonl │ │ │ ├── pure_korean/ │ │ │ │ └── samples.jsonl │ │ │ ├── python_list_comprehension/ │ │ │ │ └── samples.jsonl │ │ │ ├── qa/ │ │ │ │ └── q_and_a.jsonl │ │ │ ├── quartz/ │ │ │ │ ├── few_shot.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── ral_to_hex/ │ │ │ │ └── samples.jsonl │ │ │ ├── rare-and-loanwords-dutch-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── raven-matrices/ │ │ │ │ ├── symbolic/ │ │ │ │ │ ├── center_single.jsonl │ │ │ │ │ ├── distribute_four.jsonl │ │ │ │ │ ├── distribute_nine.jsonl │ │ │ │ │ ├── in_center_single_out_center_single.jsonl │ │ │ │ │ ├── in_distribute_four_out_center_single.jsonl │ │ │ │ │ ├── left_center_single_right_center_single.jsonl │ │ │ │ │ └── up_center_single_down_center_single.jsonl │ │ │ │ ├── symbolic-open/ │ │ │ │ │ ├── center_single.jsonl │ │ │ │ │ ├── distribute_four.jsonl │ │ │ │ │ ├── distribute_nine.jsonl │ │ │ │ │ ├── in_center_single_out_center_single.jsonl │ │ │ │ │ ├── in_distribute_four_out_center_single.jsonl │ │ │ │ │ ├── left_center_single_right_center_single.jsonl │ │ │ │ │ └── up_center_single_down_center_single.jsonl │ │ │ │ ├── text/ │ │ │ │ │ ├── center_single.jsonl │ │ │ │ │ ├── distribute_four.jsonl │ │ │ │ │ ├── distribute_nine.jsonl │ │ │ │ │ ├── in_center_single_out_center_single.jsonl │ │ │ │ │ ├── in_distribute_four_out_center_single.jsonl │ │ │ │ │ ├── left_center_single_right_center_single.jsonl │ │ │ │ │ └── up_center_single_down_center_single.jsonl │ │ │ │ └── text-open/ │ │ │ │ ├── center_single.jsonl │ │ │ │ ├── distribute_four.jsonl │ │ │ │ ├── distribute_nine.jsonl │ │ │ │ ├── in_center_single_out_center_single.jsonl │ │ │ │ ├── in_distribute_four_out_center_single.jsonl │ │ │ │ ├── left_center_single_right_center_single.jsonl │ │ │ │ └── up_center_single_down_center_single.jsonl │ │ │ ├── reasoning/ │ │ │ │ └── samples.jsonl │ │ │ ├── reasoning_with_contradictory_statements/ │ │ │ │ └── samples.jsonl │ │ │ ├── rectangles/ │ │ │ │ └── samples.jsonl │ │ │ ├── recurrence-relation/ │ │ │ │ └── samples.jsonl │ │ │ ├── regex-match/ │ │ │ │ └── samples.jsonl │ │ │ ├── relative_orientations/ │ │ │ │ └── samples.jsonl │ │ │ ├── research-question-extraction/ │ │ │ │ └── research-question-extraction-samples.jsonl │ │ │ ├── resistor_ohm_calculator/ │ │ │ │ └── samples.jsonl │ │ │ ├── resource_id_extraction/ │ │ │ │ └── samples.jsonl │ │ │ ├── reverse-polish-notation/ │ │ │ │ └── questions.jsonl │ │ │ ├── reverse-shell/ │ │ │ │ └── samples.jsonl │ │ │ ├── reverse-sort-words-eng/ │ │ │ │ └── samples.jsonl │ │ │ ├── reverse_string/ │ │ │ │ └── reverse_string.jsonl │ │ │ ├── rhetorical_devices/ │ │ │ │ └── samples.jsonl │ │ │ ├── rock-climbing/ │ │ │ │ └── samples.jsonl │ │ │ ├── romanian-logic/ │ │ │ │ └── romanian-logic.jsonl │ │ │ ├── romanian_homonyms/ │ │ │ │ └── samples.jsonl │ │ │ ├── rot13/ │ │ │ │ └── rot13.jsonl │ │ │ ├── ru_rhyming_phrases/ │ │ │ │ └── samples.jsonl │ │ │ ├── rubiks-colors/ │ │ │ │ └── samples.jsonl │ │ │ ├── rucola/ │ │ │ │ ├── few_shot.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── russe/ │ │ │ │ ├── few_shot.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── russian-english-homonym-context-resolution/ │ │ │ │ └── samples.jsonl │ │ │ ├── russian-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── russian-nlp-tasks/ │ │ │ │ └── samples.jsonl │ │ │ ├── russian-rhyme/ │ │ │ │ └── samples.jsonl │ │ │ ├── russian-verse/ │ │ │ │ └── samples.jsonl │ │ │ ├── russian_medical/ │ │ │ │ └── samples.jsonl │ │ │ ├── russian_sarcasm/ │ │ │ │ └── samples.jsonl │ │ │ ├── sandbagging/ │ │ │ │ ├── LICENSE │ │ │ │ ├── samples-all-large.jsonl │ │ │ │ ├── samples-all.jsonl │ │ │ │ ├── samples-ast.jsonl │ │ │ │ └── samples-non-ast.jsonl │ │ │ ├── sarcasm/ │ │ │ │ ├── few_shot.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── schelling_point/ │ │ │ │ ├── LICENSE │ │ │ │ ├── mix.jsonl │ │ │ │ ├── owt_5.jsonl │ │ │ │ ├── random_numbers_10_3.jsonl │ │ │ │ ├── random_words_10.jsonl │ │ │ │ └── wikipedia_5.jsonl │ │ │ ├── seating_arrangements/ │ │ │ │ └── samples.jsonl │ │ │ ├── security_guide/ │ │ │ │ └── samples.jsonl │ │ │ ├── self_prompting/ │ │ │ │ ├── oriprompt.log │ │ │ │ └── samples.jsonl │ │ │ ├── seo_keywords/ │ │ │ │ └── samples.jsonl │ │ │ ├── serbian-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── sexagenary_cycle_calculation/ │ │ │ │ └── samples.jsonl │ │ │ ├── shape_in_shape/ │ │ │ │ └── shape_in_shape.jsonl │ │ │ ├── shared_border/ │ │ │ │ └── samples.jsonl │ │ │ ├── shopping_discount_comparison/ │ │ │ │ └── samples.jsonl │ │ │ ├── simple-block-puzzles/ │ │ │ │ └── block-puzzles.v1.jsonl │ │ │ ├── simple-charting/ │ │ │ │ └── samples.jsonl │ │ │ ├── simple-knowledge-mongolian/ │ │ │ │ └── samples.v0.jsonl │ │ │ ├── simple-visual-understanding/ │ │ │ │ └── simple-visual-understanding.jsonl │ │ │ ├── simple_math/ │ │ │ │ └── simple_math.jsonl │ │ │ ├── simple_physics_engine/ │ │ │ │ ├── samples.jsonl │ │ │ │ ├── samples_generator.py │ │ │ │ ├── solver.py │ │ │ │ └── wave_function_collapse.py │ │ │ ├── sindarin_fluency/ │ │ │ │ └── sindarin_nouns.jsonl │ │ │ ├── singapore_data_protection_decisions/ │ │ │ │ └── samples.jsonl │ │ │ ├── singlestore-vectorsearch/ │ │ │ │ └── samples.jsonl │ │ │ ├── skill_acquisition/ │ │ │ │ └── miskito/ │ │ │ │ ├── knowledge_base/ │ │ │ │ │ ├── honduras.jsonl │ │ │ │ │ ├── human_rights_miskito.jsonl │ │ │ │ │ ├── miskito_language.jsonl │ │ │ │ │ ├── miskito_lessons.jsonl │ │ │ │ │ ├── miskito_people.jsonl │ │ │ │ │ ├── mosquito.jsonl │ │ │ │ │ ├── mosquito_coast.jsonl │ │ │ │ │ └── nicaragua.jsonl │ │ │ │ ├── qa_pairs_by_lesson.jsonl │ │ │ │ └── variants/ │ │ │ │ ├── miskito_test_all.jsonl │ │ │ │ ├── miskito_test_all_fewshot.jsonl │ │ │ │ ├── miskito_test_manipulation.jsonl │ │ │ │ ├── miskito_test_manipulation_fewshot.jsonl │ │ │ │ ├── miskito_test_translation.jsonl │ │ │ │ ├── miskito_test_translation_fewshot.jsonl │ │ │ │ ├── miskito_train_all.jsonl │ │ │ │ ├── miskito_train_manipulation.jsonl │ │ │ │ └── miskito_train_translation.jsonl │ │ │ ├── smiles_to_formula/ │ │ │ │ └── samples.jsonl │ │ │ ├── soc_codes/ │ │ │ │ └── samples.jsonl │ │ │ ├── solve-for-variable/ │ │ │ │ ├── samples.jsonl │ │ │ │ └── tools/ │ │ │ │ ├── README.md │ │ │ │ ├── main.py │ │ │ │ ├── problem.py │ │ │ │ ├── solve.py │ │ │ │ ├── template.jsonl │ │ │ │ └── tester.py │ │ │ ├── sort_numeric/ │ │ │ │ └── samples.jsonl │ │ │ ├── south-african-bands/ │ │ │ │ └── south-african-bands.jsonl │ │ │ ├── spanish-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── spanish-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── spanish_feminine_noun_masculine_article/ │ │ │ │ └── samples.jsonl │ │ │ ├── split_chinese_characters/ │ │ │ │ └── samples.jsonl │ │ │ ├── sql/ │ │ │ │ ├── co_sql.jsonl │ │ │ │ └── spider_sql.jsonl │ │ │ ├── squares-gpt/ │ │ │ │ └── square-samples.jsonl │ │ │ ├── stats-tests/ │ │ │ │ └── samples.jsonl │ │ │ ├── steganography/ │ │ │ │ ├── LICENSE │ │ │ │ └── samples.jsonl │ │ │ ├── stock_options/ │ │ │ │ ├── stock_option_terms_bear_call_spread.jsonl │ │ │ │ ├── stock_option_terms_bull_call_spread.jsonl │ │ │ │ ├── stock_option_terms_inverse_iron_butterfly_spread.jsonl │ │ │ │ ├── stock_option_terms_inverse_iron_condor_spread.jsonl │ │ │ │ ├── stock_option_terms_iron_butterfly_spread.jsonl │ │ │ │ ├── stock_option_terms_iron_condor_spread.jsonl │ │ │ │ ├── stock_options_bear_call_spread.jsonl │ │ │ │ ├── stock_options_bull_call_spread.jsonl │ │ │ │ ├── stock_options_inverse_iron_butterfly_spread.jsonl │ │ │ │ ├── stock_options_inverse_iron_condor_spread.jsonl │ │ │ │ ├── stock_options_iron_butterfly_spread.jsonl │ │ │ │ └── stock_options_iron_condor_spread.jsonl │ │ │ ├── superficialpatterns/ │ │ │ │ └── samples.jsonl │ │ │ ├── svg_alphabet/ │ │ │ │ └── samples.jsonl │ │ │ ├── svg_to_text/ │ │ │ │ └── samples.jsonl │ │ │ ├── svg_understanding/ │ │ │ │ └── samples.jsonl │ │ │ ├── swap-words/ │ │ │ │ └── samples.jsonl │ │ │ ├── swedish-spelling/ │ │ │ │ └── samples.jsonl │ │ │ ├── swedish_sat/ │ │ │ │ └── samples.jsonl │ │ │ ├── syllables_long_words/ │ │ │ │ └── long_word_samples.jsonl │ │ │ ├── syntax-check/ │ │ │ │ └── samples.jsonl │ │ │ ├── taxes/ │ │ │ │ └── samples.jsonl │ │ │ ├── tempo_to_measure_count/ │ │ │ │ └── samples.jsonl │ │ │ ├── test_comp_sci/ │ │ │ │ └── questions.jsonl │ │ │ ├── test_english_pronunciations/ │ │ │ │ └── samples.jsonl │ │ │ ├── test_fuzzy_match/ │ │ │ │ └── samples.jsonl │ │ │ ├── test_japanese_english_numerals/ │ │ │ │ └── samples.jsonl │ │ │ ├── test_japanese_radical/ │ │ │ │ └── samples.jsonl │ │ │ ├── test_japanese_units/ │ │ │ │ └── samples.jsonl │ │ │ ├── test_metaeval/ │ │ │ │ └── joke_fruits_labeled.jsonl │ │ │ ├── test_modelgraded/ │ │ │ │ ├── humor_people_jp.jsonl │ │ │ │ └── joke_fruits.jsonl │ │ │ ├── test_multiio/ │ │ │ │ └── battles/ │ │ │ │ ├── joke_animals_vs_fruits.jsonl │ │ │ │ ├── rap_animals_vs_fruits.jsonl │ │ │ │ ├── rap_people_vs_fruits.jsonl │ │ │ │ └── rap_people_vs_people.jsonl │ │ │ ├── test_time_zone_conversion/ │ │ │ │ └── samples.v0.jsonl │ │ │ ├── tetris/ │ │ │ │ └── tetris.jsonl │ │ │ ├── text_compression/ │ │ │ │ ├── LICENSE │ │ │ │ └── samples.jsonl │ │ │ ├── theory_of_mind/ │ │ │ │ ├── .gitattributes │ │ │ │ ├── LICENSE │ │ │ │ ├── hitom/ │ │ │ │ │ ├── hitom-multiple-choice.jsonl │ │ │ │ │ ├── hitom.jsonl │ │ │ │ │ └── license.md │ │ │ │ ├── socialiqa/ │ │ │ │ │ ├── license.md │ │ │ │ │ └── test.jsonl │ │ │ │ └── tomi/ │ │ │ │ ├── license.md │ │ │ │ └── test.jsonl │ │ │ ├── thirty_six_stratagems/ │ │ │ │ └── samples.jsonl │ │ │ ├── three-pt-mapping/ │ │ │ │ └── three_pt_mapping.jsonl │ │ │ ├── tokyo-station-number/ │ │ │ │ └── samples.jsonl │ │ │ ├── track_objects/ │ │ │ │ └── samples.jsonl │ │ │ ├── tracking-shuffled-objects/ │ │ │ │ └── samples.jsonl │ │ │ ├── tricky-word-problems/ │ │ │ │ └── samples.jsonl │ │ │ ├── turkish-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── turkish_characters/ │ │ │ │ └── samples.jsonl │ │ │ ├── twenty_questions/ │ │ │ │ ├── LICENSE │ │ │ │ ├── dataset.jsonl │ │ │ │ └── lexicon_nouns.jsonl │ │ │ ├── ukraine_eit/ │ │ │ │ └── samples.jsonl │ │ │ ├── ukraine_electronic_petitions/ │ │ │ │ └── samples.jsonl │ │ │ ├── ukraine_gec/ │ │ │ │ ├── README.md │ │ │ │ ├── ukraine_gec_fluency_calque.jsonl │ │ │ │ ├── ukraine_gec_fluency_other.jsonl │ │ │ │ ├── ukraine_gec_fluency_poorflow.jsonl │ │ │ │ ├── ukraine_gec_fluency_repetition.jsonl │ │ │ │ ├── ukraine_gec_fluency_style.jsonl │ │ │ │ ├── ukraine_gec_grammar_aspect.jsonl │ │ │ │ ├── ukraine_gec_grammar_case.jsonl │ │ │ │ ├── ukraine_gec_grammar_comparison.jsonl │ │ │ │ ├── ukraine_gec_grammar_conjunction.jsonl │ │ │ │ ├── ukraine_gec_grammar_gender.jsonl │ │ │ │ ├── ukraine_gec_grammar_number.jsonl │ │ │ │ ├── ukraine_gec_grammar_other.jsonl │ │ │ │ ├── ukraine_gec_grammar_partvoice.jsonl │ │ │ │ ├── ukraine_gec_grammar_prep.jsonl │ │ │ │ ├── ukraine_gec_grammar_tense.jsonl │ │ │ │ ├── ukraine_gec_grammar_ungrammaticalstructure.jsonl │ │ │ │ ├── ukraine_gec_grammar_verbaform.jsonl │ │ │ │ └── ukraine_gec_grammar_verbvoice.jsonl │ │ │ ├── unified_patch/ │ │ │ │ └── samples.jsonl │ │ │ ├── unique_combinations/ │ │ │ │ └── samples.jsonl │ │ │ ├── unsolvable_questions/ │ │ │ │ ├── convert.js │ │ │ │ ├── findFailures.js │ │ │ │ └── samples.jsonl │ │ │ ├── unwanted-rhyming/ │ │ │ │ └── samples.jsonl │ │ │ ├── urdu-lexicon/ │ │ │ │ └── samples.jsonl │ │ │ ├── urdu-transliteration/ │ │ │ │ └── samples.jsonl │ │ │ ├── us_tort_law/ │ │ │ │ ├── few_shot.jsonl │ │ │ │ └── samples.jsonl │ │ │ ├── utah_real_estate/ │ │ │ │ └── samples.jsonl │ │ │ ├── utility_price_parsing/ │ │ │ │ └── samples.jsonl │ │ │ ├── vietnamese-exams-qa/ │ │ │ │ └── samples.jsonl │ │ │ ├── viewport_to_grid_size/ │ │ │ │ └── samples.jsonl │ │ │ ├── vigenere/ │ │ │ │ └── samples.jsonl │ │ │ ├── vintage_phone_keyboard_decode/ │ │ │ │ └── samples.jsonl │ │ │ ├── which_is_heavier/ │ │ │ │ └── which_is_heavier.jsonl │ │ │ ├── wkt_understanding/ │ │ │ │ └── samples.jsonl │ │ │ ├── word_association/ │ │ │ │ ├── corpus_tools/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── corpus.py │ │ │ │ │ ├── logger_config.py │ │ │ │ │ ├── pipelines.py │ │ │ │ │ ├── processor.py │ │ │ │ │ ├── related_words.py │ │ │ │ │ ├── sample_generators.py │ │ │ │ │ └── validators.py │ │ │ │ ├── related_words_2.jsonl │ │ │ │ ├── related_words_3.jsonl │ │ │ │ ├── related_words_4.jsonl │ │ │ │ └── related_words_5.jsonl │ │ │ └── word_vector_over_reliance/ │ │ │ └── word_vector_over_reliance_samples.jsonl │ │ ├── eval_sets/ │ │ │ ├── chinese-numbers.yaml │ │ │ ├── coqa-ex.yaml │ │ │ ├── css-selectors.yaml │ │ │ ├── exams-all.yaml │ │ │ ├── hr-ml-agent-bench.yaml │ │ │ ├── logiqa-logical-reasoning-plus.yaml │ │ │ ├── manga-translation.yaml │ │ │ ├── mazes.yaml │ │ │ ├── mmmu.yaml │ │ │ ├── pointer-value-retrieval.yaml │ │ │ ├── raven-matrices.yaml │ │ │ ├── schelling_point.yaml │ │ │ ├── stock-options.yaml │ │ │ ├── test-all.yaml │ │ │ ├── test-basic.yaml │ │ │ ├── test-modelgraded.yaml │ │ │ ├── ukraine-gec.yaml │ │ │ └── word-associations.yaml │ │ ├── evals/ │ │ │ ├── 2d_movement.yaml │ │ │ ├── 3d_globe_movement.yaml │ │ │ ├── 3d_object_manipulation.yaml │ │ │ ├── Chinese_character_riddles.yaml │ │ │ ├── GPT-model-text-detection.yaml │ │ │ ├── Unfamiliar-Chinese-Character.yaml │ │ │ ├── ab.yaml │ │ │ ├── aba-mrpc-true-false.yaml │ │ │ ├── abstract-causal-reasoning.yaml │ │ │ ├── abstract2title.yaml │ │ │ ├── accounting_audit.yaml │ │ │ ├── actors-sequence.yaml │ │ │ ├── adultery_state_laws.yaml │ │ │ ├── afrikaans-lexicon.yaml │ │ │ ├── aime_evaluation.yaml │ │ │ ├── algebra-word-problems.yaml │ │ │ ├── allergen-information.yaml │ │ │ ├── already_said_that.yaml │ │ │ ├── alternate-numeral-systems.yaml │ │ │ ├── ambiguous-sentences.yaml │ │ │ ├── anagrams.yaml │ │ │ ├── arabic-literature-qa.yaml │ │ │ ├── arc.yaml │ │ │ ├── arithmetic-expression.yaml │ │ │ ├── arithmetical_puzzles.yaml │ │ │ ├── ascii-digit-recognition.yaml │ │ │ ├── ascii-wordart.yaml │ │ │ ├── asl-classifiers.yaml │ │ │ ├── astro_eval.yaml │ │ │ ├── atpl_exams.yaml │ │ │ ├── automata-and-complexity.yaml │ │ │ ├── backgammon.yaml │ │ │ ├── balance-chemical-equation.yaml │ │ │ ├── ballots.yaml │ │ │ ├── banking77.yaml │ │ │ ├── base64-decode.yaml │ │ │ ├── beam-analysis.yaml │ │ │ ├── belarusian-antonyms.yaml │ │ │ ├── belarusian-grammar.yaml │ │ │ ├── belarusian-lexicon.yaml │ │ │ ├── belarusian-numerals.yaml │ │ │ ├── belarusian-orthography.yaml │ │ │ ├── belarusian-proverbs.yaml │ │ │ ├── belarusian-rhyme.yaml │ │ │ ├── belarusian-russian-translation.yaml │ │ │ ├── belarusian-syllable-count.yaml │ │ │ ├── belarusian-synonyms.yaml │ │ │ ├── belarusian-word-analogy-inflection.yaml │ │ │ ├── benjaminmoore_to_hex.yaml │ │ │ ├── bias_detection.yaml │ │ │ ├── bigrams.yaml │ │ │ ├── bitwise.yaml │ │ │ ├── blackfoot-numerals-modern.yaml │ │ │ ├── bluff.yaml │ │ │ ├── body-movement.yaml │ │ │ ├── born-first.yaml │ │ │ ├── brazilian-lexicon.yaml │ │ │ ├── brazilian_laws.yaml │ │ │ ├── bugged_tools.yaml │ │ │ ├── building_floorplan.yaml │ │ │ ├── bulgarian-lexicon.yaml │ │ │ ├── cant_do_that_anymore.yaml │ │ │ ├── canto_wu_pronunciation.yaml │ │ │ ├── canto_wu_pronunciation_fewshot.yaml │ │ │ ├── cardinal-directions.yaml │ │ │ ├── categorize_with_distractors.yaml │ │ │ ├── chess-piece-count.yaml │ │ │ ├── chess.yaml │ │ │ ├── chinese-lantern-riddles.yaml │ │ │ ├── chinese-remainder-theorem.yaml │ │ │ ├── chinese_ancient_masterpieces_dynasty.yaml │ │ │ ├── chinese_ancient_poetry.yaml │ │ │ ├── chinese_chu_ci.yaml │ │ │ ├── chinese_famous_novel.yaml │ │ │ ├── chinese_hard_translations.yaml │ │ │ ├── chinese_homonym.yaml │ │ │ ├── chinese_homophonic.yaml │ │ │ ├── chinese_idioms.yaml │ │ │ ├── chinese_modern_poem_identification.yaml │ │ │ ├── chinese_poem.yaml │ │ │ ├── chinese_shi_jing.yaml │ │ │ ├── chinese_song_ci.yaml │ │ │ ├── chinese_tang_poetries.yaml │ │ │ ├── chinese_zodiac.yaml │ │ │ ├── cissp-study-questions.yaml │ │ │ ├── co-sql.yaml │ │ │ ├── code_combination.yaml │ │ │ ├── code_progress.yaml │ │ │ ├── color_theory_complementary.yaml │ │ │ ├── compare-countries-area.yaml │ │ │ ├── complex-analogies-en-ru.yaml │ │ │ ├── complex-replace-characters.yaml │ │ │ ├── comprehensive-graph-reasoning.yaml │ │ │ ├── confusing_korean.yaml │ │ │ ├── connect-4.yaml │ │ │ ├── consensus_summary.yaml │ │ │ ├── context-free-grammar.yaml │ │ │ ├── convert-hex-hsl-lightness.yaml │ │ │ ├── convert_bwt_num_and_chinese_num.yaml │ │ │ ├── coq-editing.yaml │ │ │ ├── coq-proof-step.yaml │ │ │ ├── coqa-ex.yaml │ │ │ ├── corr2cause.yaml │ │ │ ├── count_intersections_polynomial.yaml │ │ │ ├── count_token_freq_dna.yaml │ │ │ ├── counterfactual-reasoning.yaml │ │ │ ├── countries.yaml │ │ │ ├── crepe.yaml │ │ │ ├── cricket_situations.yaml │ │ │ ├── crontab.yaml │ │ │ ├── csharp-linq.yaml │ │ │ ├── css-selectors.yaml │ │ │ ├── cube-pack.yaml │ │ │ ├── cybersecurity-filepaths.yaml │ │ │ ├── date-booking.yaml │ │ │ ├── date-calculator.yaml │ │ │ ├── day-of-week-from-date.yaml │ │ │ ├── decrypt-caesar-cipher.yaml │ │ │ ├── detect-hshd.yaml │ │ │ ├── determinant.yaml │ │ │ ├── dhammapada-reference.yaml │ │ │ ├── diabetes.yaml │ │ │ ├── diagrammatic_logic.yaml │ │ │ ├── dice-rotation-sequence.yaml │ │ │ ├── direct-speech-tag.yaml │ │ │ ├── directions.yaml │ │ │ ├── dna-melting-calculation.yaml │ │ │ ├── dutch-lexicon.yaml │ │ │ ├── dutch-rhymes.yaml │ │ │ ├── emoji-riddle.yaml │ │ │ ├── emotional-intelligence.yaml │ │ │ ├── error_recovery.yaml │ │ │ ├── escher-sentences.yaml │ │ │ ├── euler_problems.yaml │ │ │ ├── european-date-format-challenge.yaml │ │ │ ├── event-categories.yaml │ │ │ ├── exams.yaml │ │ │ ├── fcc_amateur_extra.yaml │ │ │ ├── finance.yaml │ │ │ ├── finance_calc.yaml │ │ │ ├── financial-derivatives.yaml │ │ │ ├── find-letter.yaml │ │ │ ├── find-thirukkural.yaml │ │ │ ├── find_country_from_svg.yaml │ │ │ ├── finger-tracking.yaml │ │ │ ├── finnish-rhyme.yaml │ │ │ ├── first-letters.yaml │ │ │ ├── food.yaml │ │ │ ├── formal-grammar-to-regex.yaml │ │ │ ├── formal_logic.yaml │ │ │ ├── forth-stack-sim.yaml │ │ │ ├── french-lexicon.yaml │ │ │ ├── french-part-of-speech.yaml │ │ │ ├── french_homonym_and_homograph.yaml │ │ │ ├── function-deduction.yaml │ │ │ ├── game-theory.yaml │ │ │ ├── gears_rotation.yaml │ │ │ ├── geometry_puzzle.yaml │ │ │ ├── german-part-of-speech.yaml │ │ │ ├── gol.yaml │ │ │ ├── gpt-protocol-buffers.yaml │ │ │ ├── greek-nt-manuscripts.yaml │ │ │ ├── greek-vocabulary.yaml │ │ │ ├── gregorian-to-hebrew-date.yaml │ │ │ ├── guess-the-singer.yaml │ │ │ ├── gujarati_numerals.yaml │ │ │ ├── hard_russian_computer_science_tasks.yaml │ │ │ ├── heart-disease.yaml │ │ │ ├── hebrew-bible.yaml │ │ │ ├── hebrew-homophones.yaml │ │ │ ├── hebrew-rhyme.yaml │ │ │ ├── hebrew-same-noun-gender.yaml │ │ │ ├── hebrew_grammar.yaml │ │ │ ├── hebrew_plurals.yaml │ │ │ ├── hebrew_talmud_suka.yaml │ │ │ ├── hindi_shuddha.yaml │ │ │ ├── hindi_upsc.yaml │ │ │ ├── hindi_words.yaml │ │ │ ├── historical-kana-orthography-reading.yaml │ │ │ ├── hr-ml-agent-bench.yaml │ │ │ ├── human-safety.yaml │ │ │ ├── iambic-pentameter.yaml │ │ │ ├── icelandic-inflection-easy.yaml │ │ │ ├── icelandic-inflection-hard.yaml │ │ │ ├── icelandic-inflection-medium.yaml │ │ │ ├── icelandic-sentences-gec.yaml │ │ │ ├── identifying_variables.yaml │ │ │ ├── illinois-law.yaml │ │ │ ├── imo_exact_answers.yaml │ │ │ ├── imperial_date_to_string.yaml │ │ │ ├── indonesian_numbers.yaml │ │ │ ├── infiniteloop-match.yaml │ │ │ ├── integer-sequence-predictions.yaml │ │ │ ├── interlingual-homograph.yaml │ │ │ ├── internal_representations.yaml │ │ │ ├── invert_word_wise.yaml │ │ │ ├── invoice_due_date_leap_day_adjustment.yaml │ │ │ ├── invoices.yaml │ │ │ ├── iqbal-poetry-translation.yaml │ │ │ ├── irish-lexicon.yaml │ │ │ ├── irish-plural-nouns.yaml │ │ │ ├── irony.yaml │ │ │ ├── irrelevant-negative-diversion.yaml │ │ │ ├── islands.yaml │ │ │ ├── isosceles-right-triangle.yaml │ │ │ ├── italian-new-words.yaml │ │ │ ├── italian-rhyme.yaml │ │ │ ├── italian_big_math_expression.yaml │ │ │ ├── japanese-decimal-units.yaml │ │ │ ├── japanese-itpassport-exam01.yaml │ │ │ ├── japanese-national-medical-exam01.yaml │ │ │ ├── japanese-national-medical-exam02.yaml │ │ │ ├── japanese-station.yaml │ │ │ ├── japanese_approval.yaml │ │ │ ├── japanese_city_name_pronuciation.yaml │ │ │ ├── japanese_driving_license.yaml │ │ │ ├── japanese_mahjong_discard_tile.yaml │ │ │ ├── japanese_number_reading.yaml │ │ │ ├── japanese_onomatopoeia.yaml │ │ │ ├── japanese_populer_video_game_title_and_the_publisher.yaml │ │ │ ├── japanese_prime_minister.yaml │ │ │ ├── japanese_romantic_context.yaml │ │ │ ├── jee-math.yaml │ │ │ ├── job_listing_title_for_a_caregiver_in_japan.yaml │ │ │ ├── json_patch_object.yaml │ │ │ ├── kanji-idioms.yaml │ │ │ ├── knot-theory.yaml │ │ │ ├── korean-consonant-vowel-combination.yaml │ │ │ ├── korean-honorific.yaml │ │ │ ├── korean-phonetics.yaml │ │ │ ├── korean-postposition.yaml │ │ │ ├── korean_date_counting.yaml │ │ │ ├── korean_dialects.yaml │ │ │ ├── korean_foreign_words.yaml │ │ │ ├── korean_romanization.yaml │ │ │ ├── korean_spaces.yaml │ │ │ ├── korean_spelling.yaml │ │ │ ├── korean_yaminjeongeum.yaml │ │ │ ├── language.yaml │ │ │ ├── largest_country.yaml │ │ │ ├── last-word-nth.yaml │ │ │ ├── lat_long_identify.yaml │ │ │ ├── latin_grammar.yaml │ │ │ ├── linear-equations.yaml │ │ │ ├── linear-regression.yaml │ │ │ ├── list_comparison_missing_name.yaml │ │ │ ├── logic-container.yaml │ │ │ ├── logic-grid-eval.yaml │ │ │ ├── logic-liar-paradox.yaml │ │ │ ├── logic-riddles.yaml │ │ │ ├── logic-statements.yaml │ │ │ ├── logic.yaml │ │ │ ├── logic_and_probability.yaml │ │ │ ├── logical-black-scholes.yaml │ │ │ ├── logical_counting.yaml │ │ │ ├── logical_reasoning_letter_series_test.yaml │ │ │ ├── logiqa-logical-reasoning-plus.yaml │ │ │ ├── logiqa.yaml │ │ │ ├── loss-logic.yaml │ │ │ ├── lunar-calendar.yaml │ │ │ ├── make-me-pay.yaml │ │ │ ├── make-me-say.yaml │ │ │ ├── mandaliof-table.yaml │ │ │ ├── manga-translation.yaml │ │ │ ├── map-electronic-component-part-to-fact.yaml │ │ │ ├── mapping_to_matricies.yaml │ │ │ ├── marxist_philosophy_exam.yaml │ │ │ ├── mate-in-one.yaml │ │ │ ├── math-derivatives.yaml │ │ │ ├── math_equations.yaml │ │ │ ├── math_for_5th-grader.yaml │ │ │ ├── math_logic_operations.yaml │ │ │ ├── math_polish.yaml │ │ │ ├── matrix-mult-rows.yaml │ │ │ ├── mazes.yaml │ │ │ ├── medication_dose.yaml │ │ │ ├── medmcqa.yaml │ │ │ ├── mendelian_inheritance.yaml │ │ │ ├── missing-operators.yaml │ │ │ ├── mmlu.yaml │ │ │ ├── mmmu.yaml │ │ │ ├── monthly_metric_comparison.yaml │ │ │ ├── moral_exceptQA.yaml │ │ │ ├── multi-step-equations.yaml │ │ │ ├── multistep-word-problems.yaml │ │ │ ├── multistep_web_tasks.yaml │ │ │ ├── music-theory-chord-names.yaml │ │ │ ├── music-theory-chord-notes.yaml │ │ │ ├── music-theory.yaml │ │ │ ├── music_theory_scale_modes.yaml │ │ │ ├── naughty_strings.yaml │ │ │ ├── nepali-numerals.yaml │ │ │ ├── nepali-song-singer.yaml │ │ │ ├── ner_finance.yaml │ │ │ ├── newsology.yaml │ │ │ ├── next-val-series.yaml │ │ │ ├── nfl-point-combinations.yaml │ │ │ ├── non-compound-names.yaml │ │ │ ├── norwegian-lexicon.yaml │ │ │ ├── norwegian-rhymes.yaml │ │ │ ├── number-pattern.yaml │ │ │ ├── number-reading.yaml │ │ │ ├── number_series_test.yaml │ │ │ ├── numbers_game.yaml │ │ │ ├── numeral-type-comparisons.yaml │ │ │ ├── numerical-cabbala-casanova.yaml │ │ │ ├── nutrition.yaml │ │ │ ├── ordered-history-events.yaml │ │ │ ├── ordering_randomised_versionlist.yaml │ │ │ ├── osm_mapping_one_way.yaml │ │ │ ├── override-system-instruction.yaml │ │ │ ├── pantone_to_hex.yaml │ │ │ ├── parable-to-moral-match.yaml │ │ │ ├── pararule-plus-multi-step-deductive-reasoning.yaml │ │ │ ├── partially_solved_crossword_clues.yaml │ │ │ ├── passing-balls.yaml │ │ │ ├── path_enclosed_area.yaml │ │ │ ├── pattern_identification.yaml │ │ │ ├── persian-kinship-riddles.yaml │ │ │ ├── ph_calculation.yaml │ │ │ ├── phonetics-identify-words-needing-missing-gpcs.yaml │ │ │ ├── physics-interaction.yaml │ │ │ ├── pointer-value-retrieval.yaml │ │ │ ├── points-on-line.yaml │ │ │ ├── poker_analysis.yaml │ │ │ ├── poker_hand_ranks.yaml │ │ │ ├── polish-lexicon.yaml │ │ │ ├── polish-proverbs.yaml │ │ │ ├── polish-syllable-count.yaml │ │ │ ├── polish_rhymes_generation.yaml │ │ │ ├── population_span_extraction.yaml │ │ │ ├── portuguese-kinship-riddles.yaml │ │ │ ├── portuguese-sarcasm.yaml │ │ │ ├── portuguese-syllable-count.yaml │ │ │ ├── positive-binary-operations.yaml │ │ │ ├── premature-conclusions.yaml │ │ │ ├── probabilities-word-problems.yaml │ │ │ ├── probability_questions.yaml │ │ │ ├── product-ie.yaml │ │ │ ├── product-matching.yaml │ │ │ ├── prompt-injection.yaml │ │ │ ├── proofreader.yaml │ │ │ ├── pure_korean.yaml │ │ │ ├── python_list_comprehension.yaml │ │ │ ├── qa.yaml │ │ │ ├── quartz.yaml │ │ │ ├── ral_to_hex.yaml │ │ │ ├── rare-and-loanwords-dutch-lexicon.yaml │ │ │ ├── raven-matrices.yaml │ │ │ ├── reasoning_with_contradictory_statements.yaml │ │ │ ├── rectangles.yaml │ │ │ ├── recurrence-relation.yaml │ │ │ ├── regex-match.yaml │ │ │ ├── relative-orientations.yaml │ │ │ ├── research-question-extraction.yaml │ │ │ ├── resistor-ohm-calculator.yaml │ │ │ ├── resource_id_extraction.yaml │ │ │ ├── reverse-polish-notation.yaml │ │ │ ├── reverse-shell.yaml │ │ │ ├── reverse-sort-words-eng.yaml │ │ │ ├── reverse-string.yaml │ │ │ ├── rhetorical-devices.yaml │ │ │ ├── rock-climbing.yaml │ │ │ ├── romanian-logic.yaml │ │ │ ├── romanian_homonyms.yaml │ │ │ ├── rot13.yaml │ │ │ ├── ru_rhymes.yaml │ │ │ ├── rubiks-colors.yaml │ │ │ ├── rucola.yaml │ │ │ ├── russe.yaml │ │ │ ├── russian-english-homonym-context-resolution.yaml │ │ │ ├── russian-lexicon.yaml │ │ │ ├── russian-nlp-tasks.yaml │ │ │ ├── russian-rhyme.yaml │ │ │ ├── russian-verse.yaml │ │ │ ├── russian_medical.yaml │ │ │ ├── russian_sarcasm.yaml │ │ │ ├── sandbagging.yaml │ │ │ ├── sarcasm.yaml │ │ │ ├── schelling_point.yaml │ │ │ ├── seating_arrangements.yaml │ │ │ ├── security_guide.yaml │ │ │ ├── self_prompting.yaml │ │ │ ├── seo_keywords.yaml │ │ │ ├── sexagenary-cycle-calculation.yaml │ │ │ ├── shape-in-shape.yaml │ │ │ ├── shared-borders.yaml │ │ │ ├── shopping_discount_comparison.yaml │ │ │ ├── simple-block-puzzles.yaml │ │ │ ├── simple-charting.yaml │ │ │ ├── simple-knowledge-mongolian.yaml │ │ │ ├── simple-visual-understanding.yaml │ │ │ ├── simple_math.yaml │ │ │ ├── simple_physics_engine.yaml │ │ │ ├── sindarin-fluency.yaml │ │ │ ├── singapore_data_protection_decisions.yaml │ │ │ ├── singlestore-vectorsearch.yaml │ │ │ ├── skill_acquisition.yaml │ │ │ ├── smiles_to_formula.yaml │ │ │ ├── soc_codes.yaml │ │ │ ├── solve-for-variable.yaml │ │ │ ├── sort-numeric.yaml │ │ │ ├── south-african-bands.yaml │ │ │ ├── spanish-lexicon.yaml │ │ │ ├── spanish_feminine_noun_masculine_article.yaml │ │ │ ├── split_chinese_characters.yaml │ │ │ ├── sql.yaml │ │ │ ├── squares-gpt.yaml │ │ │ ├── stats-tests.yaml │ │ │ ├── steganography.yaml │ │ │ ├── stock-options.yaml │ │ │ ├── superficial-patterns.yaml │ │ │ ├── svg_alphabet.yaml │ │ │ ├── svg_to_text.yaml │ │ │ ├── svg_understanding.yaml │ │ │ ├── swap-words.yaml │ │ │ ├── swedish-spelling.yaml │ │ │ ├── swedish_sat.yaml │ │ │ ├── syllables_long_words.yaml │ │ │ ├── syntax-check.yaml │ │ │ ├── taxes.yaml │ │ │ ├── tempo_to_measure_count.yaml │ │ │ ├── test-basic.yaml │ │ │ ├── test-comp-sci.yaml │ │ │ ├── test-modelgraded-battle.yaml │ │ │ ├── test-modelgraded-generated.yaml │ │ │ ├── test-modelgraded.yaml │ │ │ ├── test_english_pronunciations.yaml │ │ │ ├── test_japanese_english_numerals.yaml │ │ │ ├── test_japanese_radical.yaml │ │ │ ├── test_japanese_units.yaml │ │ │ ├── tetris.yaml │ │ │ ├── text_compression.yaml │ │ │ ├── theory_of_mind.yaml │ │ │ ├── thirty_six_stratagems.yaml │ │ │ ├── three-pt-mapping.yaml │ │ │ ├── time-zone-conversion.yaml │ │ │ ├── tokyo-station-number.yaml │ │ │ ├── track_objects.yaml │ │ │ ├── track_the_stat.yaml │ │ │ ├── tracking-shuffled-objects.yaml │ │ │ ├── tricky-word-problems.yaml │ │ │ ├── turkish_characters.yaml │ │ │ ├── twenty_questions.yaml │ │ │ ├── ukraine-eit.yaml │ │ │ ├── ukraine-gec.yaml │ │ │ ├── ukraine_electronic_petitions.yaml │ │ │ ├── unified-patch.yaml │ │ │ ├── unique_combinations.yaml │ │ │ ├── unsolvable_questions.yaml │ │ │ ├── unwanted-rhyming.yaml │ │ │ ├── urdu-lexicon.yaml │ │ │ ├── urdu-transliteration.yaml │ │ │ ├── us-tort-law.yaml │ │ │ ├── utah_real_estate.yaml │ │ │ ├── utility_price_parsing.yaml │ │ │ ├── viewport_to_grid_size.yaml │ │ │ ├── vigenere.yaml │ │ │ ├── vintage_phone_keyboard_decode.yaml │ │ │ ├── which-is-heavier.yaml │ │ │ ├── wkt_understanding.yaml │ │ │ ├── word-association.yaml │ │ │ └── word_vector_over_reliance.yaml │ │ ├── modelgraded/ │ │ │ ├── arithmetic-expression.yaml │ │ │ ├── battle.yaml │ │ │ ├── best.yaml │ │ │ ├── closedqa.yaml │ │ │ ├── diversity.yaml │ │ │ ├── fact.yaml │ │ │ ├── humor.yaml │ │ │ ├── iambic_pentameter.yaml │ │ │ ├── keywords.yaml │ │ │ ├── onomatopoeia.yaml │ │ │ ├── possible.yaml │ │ │ ├── regression-equation.yaml │ │ │ ├── research-question-extraction.yaml │ │ │ ├── rhyming.yaml │ │ │ ├── security.yaml │ │ │ ├── singlestore.yaml │ │ │ ├── sql.yaml │ │ │ └── translation.yaml │ │ └── solvers/ │ │ ├── already_said_that.yaml │ │ ├── anthropic.yaml │ │ ├── bluff.yaml │ │ ├── cant_do_that_anymore.yaml │ │ ├── defaults.yaml │ │ ├── error_recovery.yaml │ │ ├── function_deduction.yaml │ │ ├── gemini.yaml │ │ ├── hr-ml-agent-bench.yaml │ │ ├── identifying_variables.yaml │ │ ├── make-me-pay.yaml │ │ ├── multistep_web_tasks.yaml │ │ ├── sandbagging.yaml │ │ ├── self_prompting.yaml │ │ ├── skill_acquisition.yaml │ │ ├── theory_of_mind.yaml │ │ ├── together.yaml │ │ ├── track_the_stat.yaml │ │ └── twenty_questions.yaml │ ├── registry.py │ ├── registry_test.py │ ├── solvers/ │ │ ├── README.md │ │ ├── human_cli_solver.py │ │ ├── memory.py │ │ ├── nested/ │ │ │ ├── cot_solver.py │ │ │ ├── fewshot_solver.py │ │ │ ├── hhh_solver.py │ │ │ └── self_consistency_solver.py │ │ ├── postprocessors/ │ │ │ ├── README.md │ │ │ ├── base.py │ │ │ ├── postprocessors.py │ │ │ └── postprocessors_test.py │ │ ├── prompts/ │ │ │ ├── cot.py │ │ │ ├── hhh.py │ │ │ └── hhh_test.py │ │ ├── providers/ │ │ │ ├── anthropic/ │ │ │ │ ├── anthropic_solver.py │ │ │ │ └── anthropic_solver_test.py │ │ │ ├── google/ │ │ │ │ ├── gemini_solver.py │ │ │ │ ├── gemini_solver_test.py │ │ │ │ └── requirements.txt │ │ │ ├── openai/ │ │ │ │ ├── openai_assistants_solver.py │ │ │ │ ├── openai_assistants_solver_test.py │ │ │ │ └── openai_solver.py │ │ │ └── together/ │ │ │ ├── together_solver.py │ │ │ └── together_solver_test.py │ │ ├── solver.py │ │ ├── solver_test.py │ │ └── utils.py │ ├── task_state.py │ └── utils/ │ ├── api_utils.py │ ├── log_utils.py │ ├── misc.py │ ├── snowflake.py │ └── test.py ├── examples/ │ ├── lafand-mt.ipynb │ ├── lambada.ipynb │ ├── mmlu.ipynb │ └── retrieval-completionfn.ipynb ├── mypy.ini ├── pyproject.toml ├── scripts/ │ ├── battle_generator.py │ ├── modelgraded_generator.py │ └── pattern_identification_generator.py └── tests/ └── unit/ └── evals/ └── test_metrics.py