gitextract_2gq2ldhy/ ├── README.md ├── eval/ │ ├── LICENSE │ ├── README.md │ ├── configs/ │ │ ├── datasets/ │ │ │ ├── ARC_c/ │ │ │ │ ├── ARC_c_gen.py │ │ │ │ ├── ARC_c_gen_1e0de5.py │ │ │ │ ├── ARC_c_ppl.py │ │ │ │ ├── ARC_c_ppl_2ef631.py │ │ │ │ ├── ARC_c_ppl_a450bd.py │ │ │ │ └── ARC_c_ppl_d52a21.py │ │ │ ├── ARC_e/ │ │ │ │ ├── ARC_e_gen.py │ │ │ │ ├── ARC_e_gen_1e0de5.py │ │ │ │ ├── ARC_e_ppl.py │ │ │ │ ├── ARC_e_ppl_2ef631.py │ │ │ │ ├── ARC_e_ppl_a450bd.py │ │ │ │ └── ARC_e_ppl_d52a21.py │ │ │ ├── CLUE_C3/ │ │ │ │ ├── CLUE_C3_gen.py │ │ │ │ ├── CLUE_C3_gen_8c358f.py │ │ │ │ ├── CLUE_C3_ppl.py │ │ │ │ ├── CLUE_C3_ppl_56b537.py │ │ │ │ └── CLUE_C3_ppl_e24a31.py │ │ │ ├── CLUE_CMRC/ │ │ │ │ ├── CLUE_CMRC_gen.py │ │ │ │ ├── CLUE_CMRC_gen_1bd3c8.py │ │ │ │ ├── CLUE_CMRC_gen_3749cd.py │ │ │ │ ├── CLUE_CMRC_gen_8484b9.py │ │ │ │ └── CLUE_CMRC_gen_941108.py │ │ │ ├── CLUE_DRCD/ │ │ │ │ ├── CLUE_DRCD_gen.py │ │ │ │ ├── CLUE_DRCD_gen_1bd3c8.py │ │ │ │ ├── CLUE_DRCD_gen_3749cd.py │ │ │ │ ├── CLUE_DRCD_gen_8484b9.py │ │ │ │ └── CLUE_DRCD_gen_941108.py │ │ │ ├── CLUE_afqmc/ │ │ │ │ ├── CLUE_afqmc_gen.py │ │ │ │ ├── CLUE_afqmc_gen_901306.py │ │ │ │ ├── CLUE_afqmc_ppl.py │ │ │ │ ├── CLUE_afqmc_ppl_378c5b.py │ │ │ │ ├── CLUE_afqmc_ppl_6507d7.py │ │ │ │ └── CLUE_afqmc_ppl_7b0c1e.py │ │ │ ├── CLUE_cmnli/ │ │ │ │ ├── CLUE_cmnli_gen.py │ │ │ │ ├── CLUE_cmnli_gen_1abf97.py │ │ │ │ ├── CLUE_cmnli_gen_51e956.py │ │ │ │ ├── CLUE_cmnli_ppl.py │ │ │ │ ├── CLUE_cmnli_ppl_98dd6e.py │ │ │ │ ├── CLUE_cmnli_ppl_ef69e7.py │ │ │ │ └── CLUE_cmnli_ppl_fdc6de.py │ │ │ ├── CLUE_ocnli/ │ │ │ │ ├── CLUE_ocnli_gen.py │ │ │ │ ├── CLUE_ocnli_gen_51e956.py │ │ │ │ ├── CLUE_ocnli_gen_c4cb6c.py │ │ │ │ ├── CLUE_ocnli_ppl.py │ │ │ │ ├── CLUE_ocnli_ppl_98dd6e.py │ │ │ │ ├── CLUE_ocnli_ppl_ef69e7.py │ │ │ │ └── CLUE_ocnli_ppl_fdc6de.py │ │ │ ├── FewCLUE_bustm/ │ │ │ │ ├── FewCLUE_bustm_gen.py │ │ │ │ ├── FewCLUE_bustm_gen_634f41.py │ │ │ │ ├── FewCLUE_bustm_ppl.py │ │ │ │ ├── FewCLUE_bustm_ppl_4b16c0.py │ │ │ │ ├── FewCLUE_bustm_ppl_9ef540.py │ │ │ │ └── FewCLUE_bustm_ppl_e53034.py │ │ │ ├── FewCLUE_chid/ │ │ │ │ ├── FewCLUE_chid_gen.py │ │ │ │ ├── FewCLUE_chid_gen_0a29a2.py │ │ │ │ ├── FewCLUE_chid_ppl.py │ │ │ │ ├── FewCLUE_chid_ppl_8f2872.py │ │ │ │ └── FewCLUE_chid_ppl_acccb5.py │ │ │ ├── FewCLUE_cluewsc/ │ │ │ │ ├── FewCLUE_cluewsc_gen.py │ │ │ │ ├── FewCLUE_cluewsc_gen_c68933.py │ │ │ │ ├── FewCLUE_cluewsc_ppl.py │ │ │ │ ├── FewCLUE_cluewsc_ppl_12e4e0.py │ │ │ │ ├── FewCLUE_cluewsc_ppl_4284a0.py │ │ │ │ └── FewCLUE_cluewsc_ppl_868415.py │ │ │ ├── FewCLUE_csl/ │ │ │ │ ├── FewCLUE_csl_gen.py │ │ │ │ ├── FewCLUE_csl_gen_28b223.py │ │ │ │ ├── FewCLUE_csl_gen_87f4a8.py │ │ │ │ ├── FewCLUE_csl_ppl.py │ │ │ │ ├── FewCLUE_csl_ppl_769f8d.py │ │ │ │ └── FewCLUE_csl_ppl_841b62.py │ │ │ ├── FewCLUE_eprstmt/ │ │ │ │ ├── FewCLUE_eprstmt_gen.py │ │ │ │ ├── FewCLUE_eprstmt_gen_740ea0.py │ │ │ │ ├── FewCLUE_eprstmt_ppl.py │ │ │ │ ├── FewCLUE_eprstmt_ppl_1ce587.py │ │ │ │ └── FewCLUE_eprstmt_ppl_f1e631.py │ │ │ ├── FewCLUE_ocnli_fc/ │ │ │ │ ├── FewCLUE_ocnli_fc_gen.py │ │ │ │ ├── FewCLUE_ocnli_fc_gen_f97a97.py │ │ │ │ ├── FewCLUE_ocnli_fc_ppl.py │ │ │ │ ├── FewCLUE_ocnli_fc_ppl_9e8b3d.py │ │ │ │ └── FewCLUE_ocnli_fc_ppl_c08300.py │ │ │ ├── FewCLUE_tnews/ │ │ │ │ ├── FewCLUE_tnews_gen.py │ │ │ │ ├── FewCLUE_tnews_gen_b90e4a.py │ │ │ │ ├── FewCLUE_tnews_ppl.py │ │ │ │ ├── FewCLUE_tnews_ppl_7d1c07.py │ │ │ │ ├── FewCLUE_tnews_ppl_d10e8a.py │ │ │ │ └── FewCLUE_tnews_ppl_fff486.py │ │ │ ├── GaokaoBench/ │ │ │ │ ├── GaokaoBench_gen.py │ │ │ │ ├── GaokaoBench_gen_5cfe9e.py │ │ │ │ ├── GaokaoBench_mixed.py │ │ │ │ └── GaokaoBench_mixed_f2038e.py │ │ │ ├── PJExam/ │ │ │ │ ├── PJExam_gen.py │ │ │ │ └── PJExam_gen_8cd97c.py │ │ │ ├── SuperGLUE_AX_b/ │ │ │ │ ├── SuperGLUE_AX_b_gen.py │ │ │ │ ├── SuperGLUE_AX_b_gen_4dfefa.py │ │ │ │ ├── SuperGLUE_AX_b_ppl.py │ │ │ │ ├── SuperGLUE_AX_b_ppl_0748aa.py │ │ │ │ └── SuperGLUE_AX_b_ppl_6db806.py │ │ │ ├── SuperGLUE_AX_g/ │ │ │ │ ├── SuperGLUE_AX_g_gen.py │ │ │ │ ├── SuperGLUE_AX_g_gen_68aac7.py │ │ │ │ ├── SuperGLUE_AX_g_ppl.py │ │ │ │ ├── SuperGLUE_AX_g_ppl_50f8f6.py │ │ │ │ └── SuperGLUE_AX_g_ppl_66caf3.py │ │ │ ├── SuperGLUE_BoolQ/ │ │ │ │ ├── SuperGLUE_BoolQ_gen.py │ │ │ │ ├── SuperGLUE_BoolQ_gen_883d50.py │ │ │ │ ├── SuperGLUE_BoolQ_ppl.py │ │ │ │ ├── SuperGLUE_BoolQ_ppl_314797.py │ │ │ │ ├── SuperGLUE_BoolQ_ppl_314b96.py │ │ │ │ ├── SuperGLUE_BoolQ_ppl_4da4db.py │ │ │ │ └── SuperGLUE_BoolQ_ppl_9619db.py │ │ │ ├── SuperGLUE_CB/ │ │ │ │ ├── SuperGLUE_CB_gen.py │ │ │ │ ├── SuperGLUE_CB_gen_854c6c.py │ │ │ │ ├── SuperGLUE_CB_ppl.py │ │ │ │ ├── SuperGLUE_CB_ppl_0143fe.py │ │ │ │ └── SuperGLUE_CB_ppl_11c175.py │ │ │ ├── SuperGLUE_COPA/ │ │ │ │ ├── SuperGLUE_COPA_gen.py │ │ │ │ ├── SuperGLUE_COPA_gen_91ca53.py │ │ │ │ ├── SuperGLUE_COPA_ppl.py │ │ │ │ ├── SuperGLUE_COPA_ppl_54058d.py │ │ │ │ ├── SuperGLUE_COPA_ppl_5c24f1.py │ │ │ │ └── SuperGLUE_COPA_ppl_9f3618.py │ │ │ ├── SuperGLUE_MultiRC/ │ │ │ │ ├── SuperGLUE_MultiRC_gen.py │ │ │ │ ├── SuperGLUE_MultiRC_gen_27071f.py │ │ │ │ ├── SuperGLUE_MultiRC_ppl.py │ │ │ │ ├── SuperGLUE_MultiRC_ppl_866273.py │ │ │ │ └── SuperGLUE_MultiRC_ppl_ced824.py │ │ │ ├── SuperGLUE_RTE/ │ │ │ │ ├── SuperGLUE_RTE_gen.py │ │ │ │ ├── SuperGLUE_RTE_gen_68aac7.py │ │ │ │ ├── SuperGLUE_RTE_ppl.py │ │ │ │ ├── SuperGLUE_RTE_ppl_50f8f6.py │ │ │ │ └── SuperGLUE_RTE_ppl_66caf3.py │ │ │ ├── SuperGLUE_ReCoRD/ │ │ │ │ ├── SuperGLUE_ReCoRD_gen.py │ │ │ │ ├── SuperGLUE_ReCoRD_gen_0f7784.py │ │ │ │ ├── SuperGLUE_ReCoRD_gen_30dea0.py │ │ │ │ └── SuperGLUE_ReCoRD_gen_a69961.py │ │ │ ├── SuperGLUE_WSC/ │ │ │ │ ├── SuperGLUE_WSC_gen.py │ │ │ │ ├── SuperGLUE_WSC_gen_6dc406.py │ │ │ │ ├── SuperGLUE_WSC_gen_8a881c.py │ │ │ │ ├── SuperGLUE_WSC_ppl.py │ │ │ │ ├── SuperGLUE_WSC_ppl_003529.py │ │ │ │ ├── SuperGLUE_WSC_ppl_cbf31c.py │ │ │ │ ├── SuperGLUE_WSC_ppl_d0f531.py │ │ │ │ └── SuperGLUE_WSC_ppl_f37e78.py │ │ │ ├── SuperGLUE_WiC/ │ │ │ │ ├── SuperGLUE_WiC_gen.py │ │ │ │ ├── SuperGLUE_WiC_gen_d06864.py │ │ │ │ ├── SuperGLUE_WiC_ppl.py │ │ │ │ ├── SuperGLUE_WiC_ppl_312de9.py │ │ │ │ ├── SuperGLUE_WiC_ppl_3fb6fd.py │ │ │ │ └── SuperGLUE_WiC_ppl_c926be.py │ │ │ ├── TheoremQA/ │ │ │ │ ├── TheoremQA_gen.py │ │ │ │ ├── TheoremQA_gen_424e0a.py │ │ │ │ ├── TheoremQA_gen_7009de.py │ │ │ │ └── TheoremQA_gen_ef26ca.py │ │ │ ├── XCOPA/ │ │ │ │ ├── XCOPA_ppl.py │ │ │ │ └── XCOPA_ppl_54058d.py │ │ │ ├── XLSum/ │ │ │ │ ├── XLSum_gen.py │ │ │ │ └── XLSum_gen_2bb71c.py │ │ │ ├── Xsum/ │ │ │ │ ├── Xsum_gen.py │ │ │ │ ├── Xsum_gen_31397e.py │ │ │ │ └── Xsum_gen_8ea5f8.py │ │ │ ├── adv_glue/ │ │ │ │ ├── __init__.py │ │ │ │ ├── adv_glue_mnli/ │ │ │ │ │ ├── adv_glue_mnli_gen.py │ │ │ │ │ └── adv_glue_mnli_gen_bd8ef0.py │ │ │ │ ├── adv_glue_mnli_mm/ │ │ │ │ │ ├── adv_glue_mnli_mm_gen.py │ │ │ │ │ └── adv_glue_mnli_mm_gen_bd8ef0.py │ │ │ │ ├── adv_glue_qnli/ │ │ │ │ │ ├── adv_glue_qnli_gen.py │ │ │ │ │ └── adv_glue_qnli_gen_0b7326.py │ │ │ │ ├── adv_glue_qqp/ │ │ │ │ │ ├── adv_glue_qqp_gen.py │ │ │ │ │ └── adv_glue_qqp_gen_cdc277.py │ │ │ │ ├── adv_glue_rte/ │ │ │ │ │ ├── adv_glue_rte_gen.py │ │ │ │ │ └── adv_glue_rte_gen_8cc547.py │ │ │ │ └── adv_glue_sst2/ │ │ │ │ ├── adv_glue_sst2_gen.py │ │ │ │ └── adv_glue_sst2_gen_ee8d3b.py │ │ │ ├── agieval/ │ │ │ │ ├── agieval_gen.py │ │ │ │ ├── agieval_gen_64afd3.py │ │ │ │ ├── agieval_gen_a0c741.py │ │ │ │ ├── agieval_mixed.py │ │ │ │ └── agieval_mixed_2f14ad.py │ │ │ ├── anli/ │ │ │ │ ├── anli_gen.py │ │ │ │ ├── anli_gen_fc7328.py │ │ │ │ ├── anli_ppl.py │ │ │ │ └── anli_ppl_1d290e.py │ │ │ ├── apps/ │ │ │ │ ├── apps_gen.py │ │ │ │ ├── apps_gen_5b4254.py │ │ │ │ ├── apps_gen_7fbb95.py │ │ │ │ └── apps_gen_b4dee3.py │ │ │ ├── bbh/ │ │ │ │ ├── bbh_gen.py │ │ │ │ ├── bbh_gen_5b92b0.py │ │ │ │ ├── bbh_gen_5bf00b.py │ │ │ │ └── lib_prompt/ │ │ │ │ ├── boolean_expressions.txt │ │ │ │ ├── causal_judgement.txt │ │ │ │ ├── date_understanding.txt │ │ │ │ ├── disambiguation_qa.txt │ │ │ │ ├── dyck_languages.txt │ │ │ │ ├── formal_fallacies.txt │ │ │ │ ├── geometric_shapes.txt │ │ │ │ ├── hyperbaton.txt │ │ │ │ ├── logical_deduction_five_objects.txt │ │ │ │ ├── logical_deduction_seven_objects.txt │ │ │ │ ├── logical_deduction_three_objects.txt │ │ │ │ ├── movie_recommendation.txt │ │ │ │ ├── multistep_arithmetic_two.txt │ │ │ │ ├── navigate.txt │ │ │ │ ├── object_counting.txt │ │ │ │ ├── penguins_in_a_table.txt │ │ │ │ ├── reasoning_about_colored_objects.txt │ │ │ │ ├── ruin_names.txt │ │ │ │ ├── salient_translation_error_detection.txt │ │ │ │ ├── snarks.txt │ │ │ │ ├── sports_understanding.txt │ │ │ │ ├── temporal_sequences.txt │ │ │ │ ├── tracking_shuffled_objects_five_objects.txt │ │ │ │ ├── tracking_shuffled_objects_seven_objects.txt │ │ │ │ ├── tracking_shuffled_objects_three_objects.txt │ │ │ │ ├── web_of_lies.txt │ │ │ │ └── word_sorting.txt │ │ │ ├── ceval/ │ │ │ │ ├── ceval_gen.py │ │ │ │ ├── ceval_gen_2daf24.py │ │ │ │ ├── ceval_gen_5f30c7.py │ │ │ │ ├── ceval_ppl.py │ │ │ │ ├── ceval_ppl_578f8d.py │ │ │ │ └── ceval_ppl_93e5ce.py │ │ │ ├── civilcomments/ │ │ │ │ ├── civilcomments_clp.py │ │ │ │ ├── civilcomments_clp_6a2561.py │ │ │ │ └── civilcomments_clp_a3c5fd.py │ │ │ ├── cmb/ │ │ │ │ ├── cmb_gen.py │ │ │ │ └── cmb_gen_72cbb7.py │ │ │ ├── cmmlu/ │ │ │ │ ├── cmmlu_gen.py │ │ │ │ ├── cmmlu_gen_c13365.py │ │ │ │ ├── cmmlu_ppl.py │ │ │ │ └── cmmlu_ppl_8b9c76.py │ │ │ ├── collections/ │ │ │ │ ├── base_medium.py │ │ │ │ ├── base_medium_llama.py │ │ │ │ ├── base_small.py │ │ │ │ ├── chat_medium.py │ │ │ │ ├── chat_small.py │ │ │ │ ├── example.py │ │ │ │ └── leaderboard/ │ │ │ │ ├── qwen.py │ │ │ │ └── qwen_chat.py │ │ │ ├── commonsenseqa/ │ │ │ │ ├── commonsenseqa_gen.py │ │ │ │ ├── commonsenseqa_gen_c946f2.py │ │ │ │ ├── commonsenseqa_ppl.py │ │ │ │ ├── commonsenseqa_ppl_3e9f2d.py │ │ │ │ ├── commonsenseqa_ppl_5545e2.py │ │ │ │ └── commonsenseqa_ppl_716f78.py │ │ │ ├── crowspairs/ │ │ │ │ ├── crowspairs_gen.py │ │ │ │ ├── crowspairs_gen_02b6c1.py │ │ │ │ ├── crowspairs_gen_381af0.py │ │ │ │ ├── crowspairs_ppl.py │ │ │ │ ├── crowspairs_ppl_47f211.py │ │ │ │ └── crowspairs_ppl_e811e1.py │ │ │ ├── cvalues/ │ │ │ │ ├── cvalues_responsibility_gen.py │ │ │ │ └── cvalues_responsibility_gen_543378.py │ │ │ ├── drop/ │ │ │ │ ├── drop_gen.py │ │ │ │ └── drop_gen_599f07.py │ │ │ ├── ds1000/ │ │ │ │ └── ds1000_gen_cbc84f.py │ │ │ ├── flores/ │ │ │ │ ├── flores_gen.py │ │ │ │ ├── flores_gen_806ede.py │ │ │ │ └── flores_gen_aad4fd.py │ │ │ ├── game24/ │ │ │ │ ├── game24_gen.py │ │ │ │ └── game24_gen_52a460.py │ │ │ ├── govrepcrs/ │ │ │ │ ├── govrepcrs_gen.py │ │ │ │ ├── govrepcrs_gen_aa5eb3.py │ │ │ │ └── govrepcrs_gen_db7930.py │ │ │ ├── gsm8k/ │ │ │ │ ├── gsm8k_gen.py │ │ │ │ ├── gsm8k_gen_1d7fe4.py │ │ │ │ ├── gsm8k_gen_1dce88.py │ │ │ │ ├── gsm8k_gen_a3e34a.py │ │ │ │ └── gsm8k_gen_e9e91e.py │ │ │ ├── hellaswag/ │ │ │ │ ├── hellaswag_gen.py │ │ │ │ ├── hellaswag_gen_6faab5.py │ │ │ │ ├── hellaswag_ppl.py │ │ │ │ ├── hellaswag_ppl_47bff9.py │ │ │ │ ├── hellaswag_ppl_9dbb12.py │ │ │ │ └── hellaswag_ppl_a6e128.py │ │ │ ├── humaneval/ │ │ │ │ ├── humaneval_gen.py │ │ │ │ ├── humaneval_gen_6f294d.py │ │ │ │ ├── humaneval_gen_8e312c.py │ │ │ │ ├── humaneval_gen_a82cae.py │ │ │ │ ├── humaneval_gen_fd5822.py │ │ │ │ └── humaneval_gen_ff7054.py │ │ │ ├── humanevalx/ │ │ │ │ ├── humanevalx_gen.py │ │ │ │ ├── humanevalx_gen_0af626.py │ │ │ │ └── humanevalx_gen_620cfa.py │ │ │ ├── iwslt2017/ │ │ │ │ ├── iwslt2017_gen.py │ │ │ │ ├── iwslt2017_gen_69ce16.py │ │ │ │ ├── iwslt2017_gen_b4a814.py │ │ │ │ └── iwslt2017_gen_d0ebd1.py │ │ │ ├── jigsawmultilingual/ │ │ │ │ ├── jigsawmultilingual_clp.py │ │ │ │ ├── jigsawmultilingual_clp_1af0ae.py │ │ │ │ └── jigsawmultilingual_clp_fe50d8.py │ │ │ ├── lambada/ │ │ │ │ ├── lambada_gen.py │ │ │ │ ├── lambada_gen_217e11.py │ │ │ │ └── lambada_gen_8b48a5.py │ │ │ ├── lcsts/ │ │ │ │ ├── lcsts_gen.py │ │ │ │ ├── lcsts_gen_8ee1fe.py │ │ │ │ └── lcsts_gen_9b0b89.py │ │ │ ├── leval/ │ │ │ │ ├── leval.py │ │ │ │ ├── levalcoursera/ │ │ │ │ │ ├── leval_coursera_gen.py │ │ │ │ │ └── leval_coursera_gen_36a006.py │ │ │ │ ├── levalfinancialqa/ │ │ │ │ │ ├── leval_financialqa_gen.py │ │ │ │ │ └── leval_financialqa_gen_b03798.py │ │ │ │ ├── levalgovreportsumm/ │ │ │ │ │ ├── leval_gov_report_summ_gen.py │ │ │ │ │ └── leval_gov_report_summ_gen_b03798.py │ │ │ │ ├── levalgsm100/ │ │ │ │ │ ├── leval_gsm100_gen.py │ │ │ │ │ └── leval_gsm100_gen_77dd94.py │ │ │ │ ├── levallegalcontractqa/ │ │ │ │ │ ├── leval_legalcontractqa_gen.py │ │ │ │ │ └── leval_legalcontractqa_gen_68a2ac.py │ │ │ │ ├── levalmeetingsumm/ │ │ │ │ │ ├── leval_meetingsumm_gen.py │ │ │ │ │ └── leval_meetingsumm_gen_b03798.py │ │ │ │ ├── levalmultidocqa/ │ │ │ │ │ ├── leval_multidocqa_gen.py │ │ │ │ │ └── leval_multidocqa_gen_96bf3f.py │ │ │ │ ├── levalnarrativeqa/ │ │ │ │ │ ├── leval_narrativeqa_gen.py │ │ │ │ │ └── leval_narrativeqa_gen_766dd0.py │ │ │ │ ├── levalnaturalquestion/ │ │ │ │ │ ├── leval_naturalquestion_gen.py │ │ │ │ │ └── leval_naturalquestion_gen_52c33f.py │ │ │ │ ├── levalnewssumm/ │ │ │ │ │ ├── leval_newssumm_gen.py │ │ │ │ │ └── leval_newssumm_gen_b03798.py │ │ │ │ ├── levalpaperassistant/ │ │ │ │ │ ├── leval_paper_assistant_gen.py │ │ │ │ │ └── leval_paper_assistant_gen_b03798.py │ │ │ │ ├── levalpatentsumm/ │ │ │ │ │ ├── leval_patent_summ_gen.py │ │ │ │ │ └── leval_patent_summ_gen_b03798.py │ │ │ │ ├── levalquality/ │ │ │ │ │ ├── leval_quality_gen.py │ │ │ │ │ └── leval_quality_gen_36a006.py │ │ │ │ ├── levalreviewsumm/ │ │ │ │ │ ├── leval_review_summ_gen.py │ │ │ │ │ └── leval_review_summ_gen_b03798.py │ │ │ │ ├── levalscientificqa/ │ │ │ │ │ ├── leval_scientificqa_gen.py │ │ │ │ │ └── leval_scientificqa_gen_96bf3f.py │ │ │ │ ├── levaltopicretrieval/ │ │ │ │ │ ├── leval_topic_retrieval_gen.py │ │ │ │ │ └── leval_topic_retrieval_gen_bf433f.py │ │ │ │ ├── levaltpo/ │ │ │ │ │ ├── leval_tpo_gen.py │ │ │ │ │ └── leval_tpo_gen_36a006.py │ │ │ │ └── levaltvshowsumm/ │ │ │ │ ├── leval_tvshow_summ_gen.py │ │ │ │ └── leval_tvshow_summ_gen_b03798.py │ │ │ ├── longbench/ │ │ │ │ ├── longbench.py │ │ │ │ ├── longbench2wikimqa/ │ │ │ │ │ ├── longbench_2wikimqa_gen.py │ │ │ │ │ └── longbench_2wikimqa_gen_6b3efc.py │ │ │ │ ├── longbenchdureader/ │ │ │ │ │ ├── longbench_dureader_gen.py │ │ │ │ │ └── longbench_dureader_gen_c6c7e4.py │ │ │ │ ├── longbenchgov_report/ │ │ │ │ │ ├── longbench_gov_report_gen.py │ │ │ │ │ └── longbench_gov_report_gen_54c5b0.py │ │ │ │ ├── longbenchhotpotqa/ │ │ │ │ │ ├── longbench_hotpotqa_gen.py │ │ │ │ │ └── longbench_hotpotqa_gen_6b3efc.py │ │ │ │ ├── longbenchlcc/ │ │ │ │ │ ├── longbench_lcc_gen.py │ │ │ │ │ └── longbench_lcc_gen_6ba507.py │ │ │ │ ├── longbenchlsht/ │ │ │ │ │ ├── longbench_lsht_gen.py │ │ │ │ │ └── longbench_lsht_gen_e8a339.py │ │ │ │ ├── longbenchmultifieldqa_en/ │ │ │ │ │ ├── longbench_multifieldqa_en_gen.py │ │ │ │ │ └── longbench_multifieldqa_en_gen_d3838e.py │ │ │ │ ├── longbenchmultifieldqa_zh/ │ │ │ │ │ ├── longbench_multifieldqa_zh_gen.py │ │ │ │ │ └── longbench_multifieldqa_zh_gen_e9a7ef.py │ │ │ │ ├── longbenchmusique/ │ │ │ │ │ ├── longbench_musique_gen.py │ │ │ │ │ └── longbench_musique_gen_6b3efc.py │ │ │ │ ├── longbenchnarrativeqa/ │ │ │ │ │ ├── longbench_narrativeqa_gen.py │ │ │ │ │ └── longbench_narrativeqa_gen_a68305.py │ │ │ │ ├── longbenchnq/ │ │ │ │ │ ├── longbench_nq_gen.py │ │ │ │ │ └── longbench_nq_gen_d30cb9.py │ │ │ │ ├── longbenchpassage_count/ │ │ │ │ │ ├── longbench_passage_count_gen.py │ │ │ │ │ └── longbench_passage_count_gen_dcdaab.py │ │ │ │ ├── longbenchpassage_retrieval_en/ │ │ │ │ │ ├── longbench_passage_retrieval_en_gen.py │ │ │ │ │ └── longbench_passage_retrieval_en_gen_734db5.py │ │ │ │ ├── longbenchpassage_retrieval_zh/ │ │ │ │ │ ├── longbench_passage_retrieval_zh_gen.py │ │ │ │ │ └── longbench_passage_retrieval_zh_gen_01cca2.py │ │ │ │ ├── longbenchqasper/ │ │ │ │ │ ├── longbench_qasper_gen.py │ │ │ │ │ └── longbench_qasper_gen_6b3efc.py │ │ │ │ ├── longbenchqmsum/ │ │ │ │ │ ├── longbench_qmsum_gen.py │ │ │ │ │ └── longbench_qmsum_gen_d33331.py │ │ │ │ ├── longbenchrepobench/ │ │ │ │ │ ├── longbench_repobench_gen.py │ │ │ │ │ └── longbench_repobench_gen_6df953.py │ │ │ │ ├── longbenchtrec/ │ │ │ │ │ ├── longbench_trec_gen.py │ │ │ │ │ └── longbench_trec_gen_824187.py │ │ │ │ ├── longbenchtriviaqa/ │ │ │ │ │ ├── longbench_triviaqa_gen.py │ │ │ │ │ └── longbench_triviaqa_gen_d30cb9.py │ │ │ │ └── longbenchvcsum/ │ │ │ │ ├── longbench_vcsum_gen.py │ │ │ │ └── longbench_vcsum_gen_f7a8ac.py │ │ │ ├── math/ │ │ │ │ ├── math_gen.py │ │ │ │ ├── math_gen_265cce.py │ │ │ │ ├── math_gen_559593.py │ │ │ │ └── math_gen_5e8458.py │ │ │ ├── mbpp/ │ │ │ │ ├── mbpp_gen.py │ │ │ │ ├── mbpp_gen_1e1056.py │ │ │ │ ├── mbpp_gen_5d6316.py │ │ │ │ ├── mbpp_gen_6590b0.py │ │ │ │ └── mbpp_gen_78c1bc.py │ │ │ ├── mmlu/ │ │ │ │ ├── mmlu_gen.py │ │ │ │ ├── mmlu_gen_23a9a9.py │ │ │ │ ├── mmlu_gen_5d1409.py │ │ │ │ ├── mmlu_gen_79e572.py │ │ │ │ ├── mmlu_gen_a484b3.py │ │ │ │ ├── mmlu_ppl.py │ │ │ │ └── mmlu_ppl_ac766d.py │ │ │ ├── music_theory_bench/ │ │ │ │ ├── music_theory_bench_ppl_few_shot.py │ │ │ │ └── music_theory_bench_ppl_zero_shot.py │ │ │ ├── narrativeqa/ │ │ │ │ ├── narrativeqa_gen.py │ │ │ │ ├── narrativeqa_gen_a2d88a.py │ │ │ │ └── narrativeqa_gen_db6413.py │ │ │ ├── nq/ │ │ │ │ ├── nq_gen.py │ │ │ │ ├── nq_gen_0356ec.py │ │ │ │ ├── nq_gen_2463e2.py │ │ │ │ ├── nq_gen_3dcea1.py │ │ │ │ ├── nq_gen_68c1c6.py │ │ │ │ └── nq_gen_c788f6.py │ │ │ ├── obqa/ │ │ │ │ ├── obqa_gen.py │ │ │ │ ├── obqa_gen_9069e4.py │ │ │ │ ├── obqa_ppl.py │ │ │ │ ├── obqa_ppl_1defe8.py │ │ │ │ ├── obqa_ppl_6aac9e.py │ │ │ │ └── obqa_ppl_c7c154.py │ │ │ ├── piqa/ │ │ │ │ ├── piqa_gen.py │ │ │ │ ├── piqa_gen_1194eb.py │ │ │ │ ├── piqa_ppl.py │ │ │ │ ├── piqa_ppl_0cfff2.py │ │ │ │ ├── piqa_ppl_1cf9f0.py │ │ │ │ └── piqa_ppl_3431ea.py │ │ │ ├── promptbench/ │ │ │ │ ├── promptbench_iwslt2017_gen_cbb8c8.py │ │ │ │ ├── promptbench_math_gen_abf776.py │ │ │ │ ├── promptbench_squad20_gen_b15d1c.py │ │ │ │ └── promptbench_wnli_gen_50662f.py │ │ │ ├── qabench/ │ │ │ │ ├── qabench_gen.py │ │ │ │ └── qabench_gen_353ae7.py │ │ │ ├── qasper/ │ │ │ │ ├── qasper_gen.py │ │ │ │ ├── qasper_gen_a2d88a.py │ │ │ │ └── qasper_gen_db6413.py │ │ │ ├── qaspercut/ │ │ │ │ ├── qaspercut_gen.py │ │ │ │ ├── qaspercut_gen_a2d88a.py │ │ │ │ └── qaspercut_gen_db6413.py │ │ │ ├── race/ │ │ │ │ ├── race_gen.py │ │ │ │ ├── race_gen_69ee4f.py │ │ │ │ ├── race_gen_9302a5.py │ │ │ │ ├── race_ppl.py │ │ │ │ ├── race_ppl_5831a0.py │ │ │ │ ├── race_ppl_a138cd.py │ │ │ │ └── race_ppl_abed12.py │ │ │ ├── realtoxicprompts/ │ │ │ │ ├── realtoxicprompts_gen.py │ │ │ │ ├── realtoxicprompts_gen_7605e4.py │ │ │ │ └── realtoxicprompts_gen_ac723c.py │ │ │ ├── safety/ │ │ │ │ ├── safety_gen.py │ │ │ │ └── safety_gen_7ce197.py │ │ │ ├── siqa/ │ │ │ │ ├── siqa_gen.py │ │ │ │ ├── siqa_gen_e78df3.py │ │ │ │ ├── siqa_ppl.py │ │ │ │ ├── siqa_ppl_42bc6e.py │ │ │ │ ├── siqa_ppl_7845b0.py │ │ │ │ ├── siqa_ppl_ced5f6.py │ │ │ │ └── siqa_ppl_e8d8c5.py │ │ │ ├── squad20/ │ │ │ │ ├── squad20_gen.py │ │ │ │ └── squad20_gen_1710bc.py │ │ │ ├── storycloze/ │ │ │ │ ├── storycloze_gen.py │ │ │ │ ├── storycloze_gen_7f656a.py │ │ │ │ ├── storycloze_ppl.py │ │ │ │ ├── storycloze_ppl_496661.py │ │ │ │ └── storycloze_ppl_afd16f.py │ │ │ ├── strategyqa/ │ │ │ │ ├── strategyqa_gen.py │ │ │ │ ├── strategyqa_gen_1180a7.py │ │ │ │ └── strategyqa_gen_934441.py │ │ │ ├── summedits/ │ │ │ │ ├── summedits_gen.py │ │ │ │ ├── summedits_gen_315438.py │ │ │ │ ├── summedits_gen_4fb38b.py │ │ │ │ ├── summedits_ppl.py │ │ │ │ ├── summedits_ppl_1fbeb6.py │ │ │ │ ├── summedits_ppl_3c30d0.py │ │ │ │ └── summedits_ppl_fa58ba.py │ │ │ ├── summscreen/ │ │ │ │ ├── summscreen_gen.py │ │ │ │ ├── summscreen_gen_653185.py │ │ │ │ └── summscreen_gen_aa5eb3.py │ │ │ ├── triviaqa/ │ │ │ │ ├── triviaqa_gen.py │ │ │ │ ├── triviaqa_gen_0356ec.py │ │ │ │ ├── triviaqa_gen_2121ce.py │ │ │ │ ├── triviaqa_gen_3e39a5.py │ │ │ │ ├── triviaqa_gen_429db5.py │ │ │ │ └── triviaqa_gen_d297bb.py │ │ │ ├── triviaqarc/ │ │ │ │ ├── triviaqarc_gen.py │ │ │ │ ├── triviaqarc_gen_a2d88a.py │ │ │ │ └── triviaqarc_gen_db6413.py │ │ │ ├── truthfulqa/ │ │ │ │ ├── truthfulqa_gen.py │ │ │ │ ├── truthfulqa_gen_1e7d8d.py │ │ │ │ └── truthfulqa_gen_5ddc62.py │ │ │ ├── tydiqa/ │ │ │ │ ├── tydiqa_gen.py │ │ │ │ └── tydiqa_gen_978d2a.py │ │ │ ├── winograd/ │ │ │ │ ├── winograd_ppl.py │ │ │ │ ├── winograd_ppl_8f3049.py │ │ │ │ └── winograd_ppl_b6c7ed.py │ │ │ ├── winogrande/ │ │ │ │ ├── winogrande_gen.py │ │ │ │ ├── winogrande_gen_a9ede5.py │ │ │ │ ├── winogrande_ppl.py │ │ │ │ ├── winogrande_ppl_55a66e.py │ │ │ │ └── winogrande_ppl_9307fd.py │ │ │ ├── xiezhi/ │ │ │ │ ├── xiezhi_gen.py │ │ │ │ ├── xiezhi_gen_b86cf5.py │ │ │ │ ├── xiezhi_ppl.py │ │ │ │ └── xiezhi_ppl_ea6bd7.py │ │ │ └── z_bench/ │ │ │ ├── z_bench_gen.py │ │ │ ├── z_bench_gen_52ba2f.py │ │ │ └── z_bench_gen_d8c84c.py │ │ ├── eval_attack.py │ │ ├── eval_chat_musician_7b.py │ │ ├── eval_claude.py │ │ ├── eval_codegeex2.py │ │ ├── eval_demo.py │ │ ├── eval_gpt3.5.py │ │ ├── eval_gpt4.py │ │ ├── eval_hf_llama_7b.py │ │ ├── eval_internLM.py │ │ ├── eval_internlm_7b.py │ │ ├── eval_internlm_chat_7b_turbomind.py │ │ ├── eval_llama2_7b.py │ │ ├── eval_qwen_7b.py │ │ ├── eval_qwen_7b_chat.py │ │ ├── models/ │ │ │ ├── chat_musician/ │ │ │ │ └── hf_chat_musician.py │ │ │ ├── hf_llama/ │ │ │ │ ├── hf_llama2_13b.py │ │ │ │ ├── hf_llama2_70b.py │ │ │ │ ├── hf_llama2_7b.py │ │ │ │ ├── hf_llama_13b.py │ │ │ │ ├── hf_llama_30b.py │ │ │ │ ├── hf_llama_65b.py │ │ │ │ └── hf_llama_7b.py │ │ │ ├── llama/ │ │ │ │ ├── llama2_13b.py │ │ │ │ ├── llama2_13b_chat.py │ │ │ │ ├── llama2_70b.py │ │ │ │ ├── llama2_70b_chat.py │ │ │ │ ├── llama2_7b.py │ │ │ │ ├── llama2_7b_chat.py │ │ │ │ ├── llama_13b.py │ │ │ │ ├── llama_30b.py │ │ │ │ ├── llama_65b.py │ │ │ │ └── llama_7b.py │ │ │ └── yi/ │ │ │ ├── hf_yi_34b.py │ │ │ └── hf_yi_6b.py │ │ ├── multimodal/ │ │ │ ├── instructblip/ │ │ │ │ ├── README.md │ │ │ │ ├── instructblip_coco_caption.py │ │ │ │ ├── instructblip_flickr30k.py │ │ │ │ ├── instructblip_gqa.py │ │ │ │ ├── instructblip_mmbench.py │ │ │ │ ├── instructblip_ocr_vqa.py │ │ │ │ ├── instructblip_ok_vqa.py │ │ │ │ ├── instructblip_scienceqa.py │ │ │ │ ├── instructblip_textvqa.py │ │ │ │ ├── instructblip_vizwiz.py │ │ │ │ ├── instructblip_vqav2.py │ │ │ │ └── instructblip_vsr.py │ │ │ ├── llama_adapter_v2_multimodal/ │ │ │ │ ├── README.md │ │ │ │ └── llama_adapter_v2_mm_7b_mmbench.py │ │ │ ├── llava/ │ │ │ │ ├── README.md │ │ │ │ ├── llava_7b_coco_caption.py │ │ │ │ ├── llava_7b_flickr30k.py │ │ │ │ ├── llava_7b_gqa.py │ │ │ │ ├── llava_7b_mmbench.py │ │ │ │ ├── llava_7b_ocr_vqa.py │ │ │ │ ├── llava_7b_ok_vqa.py │ │ │ │ ├── llava_7b_scienceqa.py │ │ │ │ ├── llava_7b_textvqa.py │ │ │ │ ├── llava_7b_vizwiz.py │ │ │ │ ├── llava_7b_vqav2.py │ │ │ │ └── llava_7b_vsr.py │ │ │ ├── minigpt_4/ │ │ │ │ ├── README.md │ │ │ │ ├── minigpt_4_7b_coco_caption.py │ │ │ │ ├── minigpt_4_7b_flickr30k.py │ │ │ │ ├── minigpt_4_7b_gqa.py │ │ │ │ ├── minigpt_4_7b_mmbench.py │ │ │ │ ├── minigpt_4_7b_mme.py │ │ │ │ ├── minigpt_4_7b_ocr_vqa.py │ │ │ │ ├── minigpt_4_7b_ok_vqa.py │ │ │ │ ├── minigpt_4_7b_scienceqa.py │ │ │ │ ├── minigpt_4_7b_seedbench.py │ │ │ │ ├── minigpt_4_7b_textvqa.py │ │ │ │ ├── minigpt_4_7b_vizwiz.py │ │ │ │ ├── minigpt_4_7b_vqav2.py │ │ │ │ └── minigpt_4_7b_vsr.py │ │ │ ├── mplug_owl/ │ │ │ │ ├── README.md │ │ │ │ └── mplug_owl-7b-mmbench.py │ │ │ ├── openflamingo/ │ │ │ │ ├── README.md │ │ │ │ └── openflamingo_mmbench.py │ │ │ ├── otter/ │ │ │ │ ├── README.md │ │ │ │ └── otter_9b_mmbench.py │ │ │ ├── qwen/ │ │ │ │ ├── qwenvl_base_7b_mmbench.py │ │ │ │ └── qwenvl_chat_7b_mmbench.py │ │ │ ├── tasks.py │ │ │ └── visualglm/ │ │ │ ├── visualglm_6b_coco_caption.py │ │ │ ├── visualglm_6b_flickr30k.py │ │ │ ├── visualglm_6b_gqa.py │ │ │ ├── visualglm_6b_mmbench.py │ │ │ ├── visualglm_6b_ocr_vqa.py │ │ │ ├── visualglm_6b_ok_vqa.py │ │ │ ├── visualglm_6b_scienceqa.py │ │ │ ├── visualglm_6b_textvqa.py │ │ │ ├── visualglm_6b_vizwiz.py │ │ │ ├── visualglm_6b_vqav2.py │ │ │ └── visualglm_6b_vsr.py │ │ └── summarizers/ │ │ ├── example.py │ │ ├── groups/ │ │ │ ├── GaokaoBench.py │ │ │ ├── agieval.py │ │ │ ├── bbh.py │ │ │ ├── ceval.py │ │ │ ├── cmmlu.py │ │ │ ├── flores.py │ │ │ ├── jigsaw_multilingual.py │ │ │ ├── mmlu.py │ │ │ ├── tydiqa.py │ │ │ └── xiezhi.py │ │ ├── leaderboard.py │ │ ├── leval.py │ │ ├── longbench.py │ │ ├── medium.py │ │ └── small.py │ ├── docs/ │ │ ├── en/ │ │ │ ├── MMBench.md │ │ │ ├── Makefile │ │ │ ├── _static/ │ │ │ │ ├── css/ │ │ │ │ │ └── readthedocs.css │ │ │ │ └── js/ │ │ │ │ └── custom.js │ │ │ ├── _templates/ │ │ │ │ ├── 404.html │ │ │ │ ├── autosummary/ │ │ │ │ │ └── class.rst │ │ │ │ └── callable.rst │ │ │ ├── advanced_guides/ │ │ │ │ ├── code_eval_service.md │ │ │ │ ├── evaluation_turbomind.md │ │ │ │ ├── longeval.md │ │ │ │ ├── new_dataset.md │ │ │ │ ├── new_model.md │ │ │ │ └── prompt_attack.md │ │ │ ├── conf.py │ │ │ ├── docutils.conf │ │ │ ├── faq.md │ │ │ ├── get_started.md │ │ │ ├── index.rst │ │ │ ├── notes/ │ │ │ │ ├── contribution_guide.md │ │ │ │ └── news.md │ │ │ ├── prompt/ │ │ │ │ ├── chain_of_thought.md │ │ │ │ ├── meta_template.md │ │ │ │ ├── overview.md │ │ │ │ └── prompt_template.md │ │ │ ├── tools.md │ │ │ └── user_guides/ │ │ │ ├── config.md │ │ │ ├── datasets.md │ │ │ ├── evaluation.md │ │ │ ├── experimentation.md │ │ │ ├── framework_overview.md │ │ │ ├── metrics.md │ │ │ ├── models.md │ │ │ └── summarizer.md │ │ └── zh_cn/ │ │ ├── Makefile │ │ ├── _static/ │ │ │ ├── css/ │ │ │ │ └── readthedocs.css │ │ │ └── js/ │ │ │ └── custom.js │ │ ├── _templates/ │ │ │ ├── 404.html │ │ │ ├── autosummary/ │ │ │ │ └── class.rst │ │ │ └── callable.rst │ │ ├── advanced_guides/ │ │ │ ├── code_eval_service.md │ │ │ ├── evaluation_turbomind.md │ │ │ ├── longeval.md │ │ │ ├── new_dataset.md │ │ │ ├── new_model.md │ │ │ └── prompt_attack.md │ │ ├── conf.py │ │ ├── cp_origin_docs.sh │ │ ├── docutils.conf │ │ ├── get_started.md │ │ ├── index.rst │ │ ├── notes/ │ │ │ ├── contribution_guide.md │ │ │ └── news.md │ │ ├── prompt/ │ │ │ ├── chain_of_thought.md │ │ │ ├── meta_template.md │ │ │ ├── overview.md │ │ │ └── prompt_template.md │ │ ├── tools.md │ │ └── user_guides/ │ │ ├── config.md │ │ ├── datasets.md │ │ ├── evaluation.md │ │ ├── experimentation.md │ │ ├── framework_overview.md │ │ ├── metrics.md │ │ ├── models.md │ │ └── summarizer.md │ ├── opencompass/ │ │ ├── __init__.py │ │ ├── datasets/ │ │ │ ├── GaokaoBench.py │ │ │ ├── TheoremQA.py │ │ │ ├── __init__.py │ │ │ ├── advglue.py │ │ │ ├── afqmcd.py │ │ │ ├── agieval/ │ │ │ │ ├── __init__.py │ │ │ │ ├── agieval.py │ │ │ │ ├── constructions.py │ │ │ │ ├── dataset_loader.py │ │ │ │ ├── evaluation.py │ │ │ │ ├── math_equivalence.py │ │ │ │ ├── post_process.py │ │ │ │ └── utils.py │ │ │ ├── anli.py │ │ │ ├── arc.py │ │ │ ├── ax.py │ │ │ ├── base.py │ │ │ ├── bbh.py │ │ │ ├── boolq.py │ │ │ ├── bustum.py │ │ │ ├── c3.py │ │ │ ├── cb.py │ │ │ ├── ceval.py │ │ │ ├── chid.py │ │ │ ├── civilcomments.py │ │ │ ├── cluewsc.py │ │ │ ├── cmb.py │ │ │ ├── cmmlu.py │ │ │ ├── cmnli.py │ │ │ ├── cmrc.py │ │ │ ├── commonsenseqa.py │ │ │ ├── copa.py │ │ │ ├── crowspairs.py │ │ │ ├── csl.py │ │ │ ├── cvalues.py │ │ │ ├── drcd.py │ │ │ ├── drop.py │ │ │ ├── ds1000.py │ │ │ ├── eprstmt.py │ │ │ ├── flores.py │ │ │ ├── game24.py │ │ │ ├── govrepcrs.py │ │ │ ├── gsm8k.py │ │ │ ├── hellaswag.py │ │ │ ├── huggingface.py │ │ │ ├── humaneval.py │ │ │ ├── humanevalx.py │ │ │ ├── iwslt2017.py │ │ │ ├── jigsawmultilingual.py │ │ │ ├── lambada.py │ │ │ ├── lcsts.py │ │ │ ├── leval/ │ │ │ │ ├── __init__.py │ │ │ │ ├── claude-100k.pred.jsonl │ │ │ │ ├── evaluators.py │ │ │ │ ├── leval_coursera.py │ │ │ │ ├── leval_financial_qa.py │ │ │ │ ├── leval_gov_report_summ.py │ │ │ │ ├── leval_gsm100.py │ │ │ │ ├── leval_legal_contract_qa.py │ │ │ │ ├── leval_meeting_summ.py │ │ │ │ ├── leval_multidoc_qa.py │ │ │ │ ├── leval_narrattive_qa.py │ │ │ │ ├── leval_natural_question.py │ │ │ │ ├── leval_news_summ.py │ │ │ │ ├── leval_paper_assistant.py │ │ │ │ ├── leval_patent_summ.py │ │ │ │ ├── leval_quality.py │ │ │ │ ├── leval_review_summ.py │ │ │ │ ├── leval_scientific_qa.py │ │ │ │ ├── leval_topic_retrieval.py │ │ │ │ ├── leval_tpo.py │ │ │ │ ├── leval_tvshow_summ.py │ │ │ │ └── turbo-16k-0613.pred.jsonl │ │ │ ├── longbench/ │ │ │ │ ├── __init__.py │ │ │ │ ├── evaluators.py │ │ │ │ ├── longbench_2wikim_qa.py │ │ │ │ ├── longbench_dureader.py │ │ │ │ ├── longbench_gov_report.py │ │ │ │ ├── longbench_hotpot_qa.py │ │ │ │ ├── longbench_lcc.py │ │ │ │ ├── longbench_lsht.py │ │ │ │ ├── longbench_multifieldqa_en.py │ │ │ │ ├── longbench_multifieldqa_zh.py │ │ │ │ ├── longbench_musique.py │ │ │ │ ├── longbench_narrative_qa.py │ │ │ │ ├── longbench_nq.py │ │ │ │ ├── longbench_passage_count.py │ │ │ │ ├── longbench_passage_retrieval_en.py │ │ │ │ ├── longbench_passage_retrieval_zh.py │ │ │ │ ├── longbench_qasper.py │ │ │ │ ├── longbench_qmsum.py │ │ │ │ ├── longbench_repobench.py │ │ │ │ ├── longbench_trec.py │ │ │ │ ├── longbench_trivia_qa.py │ │ │ │ └── longbench_vcsum.py │ │ │ ├── math.py │ │ │ ├── mbpp.py │ │ │ ├── mmlu.py │ │ │ ├── multirc.py │ │ │ ├── music_theory_bench.py │ │ │ ├── narrativeqa.py │ │ │ ├── natural_question.py │ │ │ ├── obqa.py │ │ │ ├── piqa.py │ │ │ ├── qasper.py │ │ │ ├── qaspercut.py │ │ │ ├── race.py │ │ │ ├── realtoxicprompts.py │ │ │ ├── record.py │ │ │ ├── safety.py │ │ │ ├── siqa.py │ │ │ ├── squad20.py │ │ │ ├── storycloze.py │ │ │ ├── strategyqa.py │ │ │ ├── summedits.py │ │ │ ├── summscreen.py │ │ │ ├── tnews.py │ │ │ ├── triviaqa.py │ │ │ ├── triviaqarc.py │ │ │ ├── truthfulqa.py │ │ │ ├── tydiqa.py │ │ │ ├── wic.py │ │ │ ├── winograd.py │ │ │ ├── winogrande.py │ │ │ ├── wnli.py │ │ │ ├── wsc.py │ │ │ ├── xcopa.py │ │ │ ├── xiezhi.py │ │ │ ├── xlsum.py │ │ │ └── xsum.py │ │ ├── metrics/ │ │ │ ├── __init__.py │ │ │ ├── dump_results.py │ │ │ ├── mme_score.py │ │ │ └── seedbench.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── base_api.py │ │ │ ├── claude_api/ │ │ │ │ ├── __init__.py │ │ │ │ ├── claude_api.py │ │ │ │ └── postprocessors.py │ │ │ ├── glm.py │ │ │ ├── huggingface.py │ │ │ ├── intern_model.py │ │ │ ├── llama2.py │ │ │ ├── openai_api.py │ │ │ └── turbomind.py │ │ ├── multimodal/ │ │ │ ├── datasets/ │ │ │ │ ├── __init__.py │ │ │ │ ├── mmbench.py │ │ │ │ ├── mme.py │ │ │ │ └── seedbench.py │ │ │ └── models/ │ │ │ ├── __init__.py │ │ │ ├── instructblip/ │ │ │ │ ├── __init__.py │ │ │ │ ├── blip2_vicuna_instruct.py │ │ │ │ ├── post_processor.py │ │ │ │ └── prompt_constructor.py │ │ │ ├── llama_adapter_v2_multimodal/ │ │ │ │ ├── __init__.py │ │ │ │ ├── llama_adapter.py │ │ │ │ ├── post_processor.py │ │ │ │ └── prompt_constructor.py │ │ │ ├── llava/ │ │ │ │ ├── __init__.py │ │ │ │ ├── llava.py │ │ │ │ ├── post_processor.py │ │ │ │ └── prompt_constructor.py │ │ │ ├── minigpt_4/ │ │ │ │ ├── __init__.py │ │ │ │ ├── minigpt_4.py │ │ │ │ ├── post_processor.py │ │ │ │ ├── prompt_constructor.py │ │ │ │ └── utils.py │ │ │ ├── mplug_owl/ │ │ │ │ ├── __init__.py │ │ │ │ ├── mplug_owl.py │ │ │ │ ├── post_processor.py │ │ │ │ └── prompt_constructor.py │ │ │ ├── openflamingo/ │ │ │ │ ├── __init__.py │ │ │ │ └── openflamingo.py │ │ │ ├── otter/ │ │ │ │ ├── __init__.py │ │ │ │ ├── otter.py │ │ │ │ ├── post_processor.py │ │ │ │ └── prompt_constructor.py │ │ │ ├── qwen/ │ │ │ │ ├── __init__.py │ │ │ │ ├── generation_utils.py │ │ │ │ ├── post_processor.py │ │ │ │ ├── prompt_constructor.py │ │ │ │ └── qwen.py │ │ │ └── visualglm/ │ │ │ ├── __init__.py │ │ │ ├── post_processor.py │ │ │ ├── prompt_constructor.py │ │ │ └── visualglm.py │ │ ├── openicl/ │ │ │ ├── __init__.py │ │ │ ├── icl_dataset_reader.py │ │ │ ├── icl_evaluator/ │ │ │ │ ├── __init__.py │ │ │ │ ├── icl_aucroc_evaluator.py │ │ │ │ ├── icl_base_evaluator.py │ │ │ │ ├── icl_em_evaluator.py │ │ │ │ ├── icl_hf_evaluator.py │ │ │ │ └── icl_toxic_evaluator.py │ │ │ ├── icl_inferencer/ │ │ │ │ ├── __init__.py │ │ │ │ ├── icl_attack_inferencer.py │ │ │ │ ├── icl_base_inferencer.py │ │ │ │ ├── icl_clp_inferencer.py │ │ │ │ ├── icl_gen_inferencer.py │ │ │ │ ├── icl_ppl_inferencer.py │ │ │ │ ├── icl_sc_inferencer.py │ │ │ │ └── icl_tot_inferencer.py │ │ │ ├── icl_prompt_template.py │ │ │ ├── icl_retriever/ │ │ │ │ ├── __init__.py │ │ │ │ ├── icl_base_retriever.py │ │ │ │ ├── icl_bm25_retriever.py │ │ │ │ ├── icl_dpp_retriever.py │ │ │ │ ├── icl_fix_k_retriever.py │ │ │ │ ├── icl_mdl_retriever.py │ │ │ │ ├── icl_random_retriever.py │ │ │ │ ├── icl_topk_retriever.py │ │ │ │ ├── icl_votek_retriever.py │ │ │ │ └── icl_zero_retriever.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ └── logging.py │ │ ├── partitioners/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── mm_naive.py │ │ │ ├── naive.py │ │ │ └── size.py │ │ ├── registry.py │ │ ├── runners/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── dlc.py │ │ │ ├── local.py │ │ │ └── slurm.py │ │ ├── tasks/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── llm_eval.py │ │ │ ├── mm_infer.py │ │ │ ├── openicl_attack.py │ │ │ ├── openicl_eval.py │ │ │ └── openicl_infer.py │ │ └── utils/ │ │ ├── __init__.py │ │ ├── abbr.py │ │ ├── build.py │ │ ├── collect_env.py │ │ ├── dependency.py │ │ ├── file.py │ │ ├── fileio.py │ │ ├── lark.py │ │ ├── logging.py │ │ ├── menu.py │ │ ├── prompt.py │ │ ├── run.py │ │ ├── summarizer.py │ │ ├── text_postprocessors.py │ │ └── types.py │ ├── requirements/ │ │ ├── docs.txt │ │ └── runtime.txt │ ├── requirements.txt │ ├── run.py │ ├── setup.py │ ├── tests/ │ │ ├── dataset/ │ │ │ └── test_humaneval.py │ │ ├── openicl/ │ │ │ └── test_prompt_template.py │ │ └── prompt/ │ │ ├── test_api_template_parser.py │ │ ├── test_lm_template_parser.py │ │ └── test_prompt_list.py │ ├── tmp/ │ │ ├── 105473_13_params.py │ │ ├── 105473_14_params.py │ │ ├── 105473_15_params.py │ │ ├── 105473_16_params.py │ │ ├── 105473_17_params.py │ │ ├── 1109939_0_params.py │ │ ├── 1109939_1_params.py │ │ ├── 1109939_2_params.py │ │ ├── 1109939_3_params.py │ │ ├── 1109939_4_params.py │ │ ├── 1109939_5_params.py │ │ ├── 1109939_6_params.py │ │ ├── 1140448_0_params.py │ │ ├── 1140448_1_params.py │ │ ├── 1140448_2_params.py │ │ ├── 1140448_3_params.py │ │ ├── 1140448_4_params.py │ │ ├── 1140448_5_params.py │ │ ├── 1140448_6_params.py │ │ ├── 1140448_7_params.py │ │ ├── 1155198_0_params.py │ │ ├── 1155198_1_params.py │ │ ├── 1155198_3_params.py │ │ ├── 1155198_4_params.py │ │ ├── 1155198_5_params.py │ │ ├── 1155198_6_params.py │ │ ├── 1155198_8_params.py │ │ ├── 1271622_0_params.py │ │ ├── 1271622_1_params.py │ │ ├── 1271622_2_params.py │ │ ├── 1271622_3_params.py │ │ ├── 1271622_4_params.py │ │ ├── 1271622_5_params.py │ │ ├── 1271622_6_params.py │ │ ├── 1271622_7_params.py │ │ ├── 1422987_36_params.py │ │ ├── 1422987_50_params.py │ │ ├── 1422987_52_params.py │ │ ├── 1422987_60_params.py │ │ ├── 1422987_62_params.py │ │ ├── 1422987_63_params.py │ │ ├── 1422987_64_params.py │ │ ├── 1422987_65_params.py │ │ ├── 1469199_10_params.py │ │ ├── 1469199_11_params.py │ │ ├── 1469199_8_params.py │ │ ├── 1469199_9_params.py │ │ ├── 1621481_0_params.py │ │ ├── 1621481_1_params.py │ │ ├── 1621481_2_params.py │ │ ├── 1621481_3_params.py │ │ ├── 1621481_4_params.py │ │ ├── 1621481_5_params.py │ │ ├── 1740358_10_params.py │ │ ├── 1740358_12_params.py │ │ ├── 1740358_13_params.py │ │ ├── 1740358_14_params.py │ │ ├── 1849911_0_params.py │ │ ├── 1849911_1_params.py │ │ ├── 1883132_params.py │ │ ├── 2182207_0_params.py │ │ ├── 2182207_1_params.py │ │ ├── 2182207_2_params.py │ │ ├── 2182207_3_params.py │ │ ├── 2182207_4_params.py │ │ ├── 2182207_5_params.py │ │ ├── 2182207_6_params.py │ │ ├── 2182207_7_params.py │ │ ├── 2182942_0_params.py │ │ ├── 2182942_1_params.py │ │ ├── 2182942_2_params.py │ │ ├── 2182942_3_params.py │ │ ├── 2182942_4_params.py │ │ ├── 2182942_5_params.py │ │ ├── 2182942_6_params.py │ │ ├── 2182942_7_params.py │ │ ├── 2672666_0_params.py │ │ ├── 2672666_1_params.py │ │ ├── 2672666_4_params.py │ │ ├── 2672666_5_params.py │ │ ├── 2672666_6_params.py │ │ ├── 2673085_6_params.py │ │ ├── 323384_0_params.py │ │ ├── 323384_3_params.py │ │ ├── 323384_6_params.py │ │ ├── 323384_7_params.py │ │ ├── 323384_8_params.py │ │ ├── 323384_9_params.py │ │ ├── 3524116_6_params.py │ │ ├── 3524116_7_params.py │ │ ├── 3689512_0_params.py │ │ ├── 3689512_1_params.py │ │ ├── 3689512_2_params.py │ │ ├── 3689512_3_params.py │ │ ├── 3689512_4_params.py │ │ ├── 3689512_5_params.py │ │ ├── 3689512_6_params.py │ │ ├── 3689512_7_params.py │ │ ├── 3961154_0_params.py │ │ ├── 3961154_1_params.py │ │ ├── 3961154_2_params.py │ │ ├── 3961154_3_params.py │ │ ├── 3961154_4_params.py │ │ ├── 3961154_5_params.py │ │ ├── 3961154_6_params.py │ │ ├── 3961154_7_params.py │ │ ├── 433934_0_params.py │ │ ├── 433934_1_params.py │ │ ├── 433934_2_params.py │ │ ├── 433934_3_params.py │ │ ├── 539674_params.py │ │ ├── 544085_params.py │ │ ├── 544730_params.py │ │ ├── 627109_4_params.py │ │ ├── 627109_5_params.py │ │ ├── 688954_4_params.py │ │ ├── 688954_5_params.py │ │ ├── 688954_6_params.py │ │ └── 688954_7_params.py │ └── tools/ │ ├── case_analyzer.py │ ├── collect_code_preds.py │ ├── eval_mmbench.py │ ├── list_configs.py │ ├── prediction_merger.py │ ├── prompt_viewer.py │ ├── test_api_model.py │ └── update_dataset_suffix.py ├── model/ │ ├── infer/ │ │ ├── chatmusician_web_demo.py │ │ └── predict.py │ └── train/ │ ├── config/ │ │ ├── ds_zero2_no_offload.json │ │ └── ds_zero3_offload.json │ ├── data_preprocess.py │ ├── llama/ │ │ ├── configuration_llama.py │ │ ├── convert_llama_weights_to_hf.py │ │ ├── modeling_llama.py │ │ └── tokenization_llama.py │ ├── merge.py │ ├── model.py │ ├── scripts/ │ │ └── train.sh │ ├── train.py │ └── utils.py └── requirements.txt