gitextract_yzcyhb3q/ ├── README.md ├── configs/ │ ├── deepspeed_stage1.json │ ├── deepspeed_stage2.json │ ├── deepspeed_stage3.json │ ├── training.yaml │ ├── zero0.yaml │ ├── zero2.yaml │ └── zero3.yaml ├── dpo_config.yaml ├── dpo_iteration/ │ ├── dpo.py │ └── run_dpo.py ├── eval/ │ ├── evaluate.py │ └── grader.py ├── eval_math/ │ ├── LICENSE │ ├── README.md │ ├── data/ │ │ ├── aime24/ │ │ │ └── test.jsonl │ │ ├── amc23/ │ │ │ └── test.jsonl │ │ ├── aqua/ │ │ │ └── test.jsonl │ │ ├── asdiv/ │ │ │ └── test.jsonl │ │ ├── carp_en/ │ │ │ ├── demo.json │ │ │ └── test.jsonl │ │ ├── cmath/ │ │ │ └── test.jsonl │ │ ├── cn_middle_school/ │ │ │ └── test.jsonl │ │ ├── college_math/ │ │ │ └── test.jsonl │ │ ├── eval_rm_maj_example/ │ │ │ └── math_cot_100.jsonl │ │ ├── gaokao2023en/ │ │ │ └── test.jsonl │ │ ├── gaokao2024_I/ │ │ │ └── test.jsonl │ │ ├── gaokao2024_II/ │ │ │ └── test.jsonl │ │ ├── gaokao2024_mix/ │ │ │ └── test.jsonl │ │ ├── gaokao_math_cloze/ │ │ │ └── test.jsonl │ │ ├── gaokao_math_qa/ │ │ │ └── test.jsonl │ │ ├── gsm8k/ │ │ │ ├── test.jsonl │ │ │ └── train.jsonl │ │ ├── math/ │ │ │ ├── test.jsonl │ │ │ └── train.jsonl │ │ ├── math500/ │ │ │ └── test.jsonl │ │ ├── mawps/ │ │ │ ├── addsub.jsonl │ │ │ ├── multiarith.jsonl │ │ │ ├── singleeq.jsonl │ │ │ ├── singleop.jsonl │ │ │ └── test.jsonl │ │ ├── minerva_math/ │ │ │ ├── README.md │ │ │ └── test.jsonl │ │ ├── mmlu_stem/ │ │ │ └── test.jsonl │ │ ├── olympiadbench/ │ │ │ ├── test.json │ │ │ └── test.jsonl │ │ ├── sat_math/ │ │ │ └── test.jsonl │ │ ├── svamp/ │ │ │ └── test.jsonl │ │ └── tabmwp/ │ │ └── test.jsonl │ ├── data_loader.py │ ├── evaluate.py │ ├── examples.py │ ├── grader.py │ ├── latex2sympy/ │ │ ├── .coveragerc │ │ ├── .gitignore │ │ ├── LICENSE.txt │ │ ├── PS.g4 │ │ ├── README.md │ │ ├── __init__.py │ │ ├── antlr-4.11.1-complete.jar │ │ ├── asciimath_printer.py │ │ ├── description.txt │ │ ├── dev-requirements.in │ │ ├── dev-requirements.txt │ │ ├── gen/ │ │ │ ├── PS.interp │ │ │ ├── PS.tokens │ │ │ ├── PSLexer.interp │ │ │ ├── PSLexer.py │ │ │ ├── PSLexer.tokens │ │ │ ├── PSListener.py │ │ │ ├── PSParser.py │ │ │ └── __init__.py │ │ ├── latex2sympy2.py │ │ ├── requirements.in │ │ ├── requirements.txt │ │ ├── sandbox/ │ │ │ ├── linalg_equations.py │ │ │ ├── linalg_span.py │ │ │ ├── matrix.py │ │ │ ├── matrix_placeholders.py │ │ │ ├── sandbox.py │ │ │ ├── sandbox_equality.py │ │ │ ├── sectan.py │ │ │ └── vector.py │ │ ├── scripts/ │ │ │ ├── compile.sh │ │ │ ├── coverage-ci.sh │ │ │ ├── coverage.sh │ │ │ ├── pre-commit │ │ │ ├── pre-push │ │ │ ├── publish.sh │ │ │ ├── setup-hooks.sh │ │ │ ├── setup.sh │ │ │ └── test.sh │ │ ├── setup.cfg │ │ ├── setup.py │ │ └── tests/ │ │ ├── __init__.py │ │ ├── abs_test.py │ │ ├── all_bad_test.py │ │ ├── all_good_test.py │ │ ├── atom_expr_test.py │ │ ├── binomial_test.py │ │ ├── ceil_test.py │ │ ├── complex_test.py │ │ ├── context.py │ │ ├── exp_test.py │ │ ├── floor_test.py │ │ ├── gcd_test.py │ │ ├── greek_test.py │ │ ├── grouping_test.py │ │ ├── lcm_test.py │ │ ├── left_right_cdot_test.py │ │ ├── linalg_test.py │ │ ├── max_test.py │ │ ├── min_test.py │ │ ├── mod_test.py │ │ ├── overline_test.py │ │ ├── pi_test.py │ │ ├── trig_test.py │ │ └── variable_test.py │ ├── math_eval.py │ ├── math_utils.py │ ├── model_utils.py │ ├── parser.py │ ├── process.py │ ├── python_executor.py │ ├── requirements.txt │ ├── rm_maj_eval.py │ ├── sh/ │ │ ├── collect_results.py │ │ ├── convert_and_evaluate_gpu.sh │ │ ├── eval.sh │ │ ├── eval_single_node.sh │ │ └── run.sh │ ├── trajectory.py │ └── utils.py ├── generation/ │ ├── gen_hf.py │ ├── merge_data.py │ └── register_server.sh ├── ppo_training/ │ ├── README.md │ ├── numia_process.py │ └── verl_example.sh ├── reward_labeling.py ├── run_env_check.sh ├── run_iter_dpo.sh ├── trainning_data_annotation/ │ └── annotate_data.py └── utils/ ├── annotate_data.py ├── data_loader.py ├── filter_data.py ├── parser.py ├── python_executor.py └── utils.py