gitextract_42yky_8u/ ├── .gitignore ├── LICENSE ├── README.md ├── data/ │ ├── asdiv/ │ │ └── test.jsonl │ ├── gsm8k/ │ │ ├── test.jsonl │ │ └── train.jsonl │ ├── gsm_hard/ │ │ └── test.jsonl │ ├── hungarian_exam/ │ │ ├── README.md │ │ └── test.jsonl │ ├── math/ │ │ ├── test.jsonl │ │ └── train.jsonl │ ├── math_oai/ │ │ └── test.jsonl │ ├── mathqa/ │ │ └── test.jsonl │ ├── mawps/ │ │ ├── addsub.jsonl │ │ ├── multiarith.jsonl │ │ ├── singleeq.jsonl │ │ ├── singleop.jsonl │ │ └── test.jsonl │ ├── mmlu_stem/ │ │ └── test.jsonl │ ├── ocw/ │ │ ├── README.md │ │ └── test.jsonl │ ├── sat_math/ │ │ └── test.jsonl │ ├── svamp/ │ │ └── test.jsonl │ └── tabmwp/ │ └── test.jsonl ├── data_loader.py ├── evaluate.py ├── grader.py ├── math_eval.py ├── model_utils.py ├── parser.py ├── prompts/ │ ├── cot/ │ │ ├── gsm8k.md │ │ ├── math.md │ │ ├── math_8shot.md │ │ ├── mathqa.md │ │ ├── minerva_math.md │ │ └── mmlu_stem.md │ ├── pal/ │ │ ├── gsm8k.md │ │ └── math.md │ └── tora/ │ ├── gsm8k.md │ └── math.md ├── python_executor.py ├── requirements.txt ├── scripts/ │ ├── run_eval.sh │ ├── run_eval_multi_gpus.py │ └── summarize_results.py ├── trajectory.py └── utils.py