gitextract_j6ug111_/ ├── .gitignore ├── README.md ├── arguments.py ├── configs/ │ ├── deepspeed/ │ │ ├── ds_config.json │ │ ├── ds_config_fp32.json │ │ ├── ds_config_zero2.json │ │ └── ds_config_zero2_offload.json │ └── hostfiles/ │ ├── node_0_1 │ ├── node_0_1_2_3 │ ├── node_1_2 │ └── node_2_3 ├── data_utils/ │ ├── distributed_indexed.py │ ├── indexed_dataset.py │ ├── lm_datasets.py │ └── prompt_datasets.py ├── distillm/ │ ├── __init__.py │ ├── buffer.py │ ├── losses.py │ └── sampler.py ├── evaluate.py ├── evaluate_main.py ├── finetune.py ├── generate.py ├── install.sh ├── minillm/ │ ├── __init__.py │ ├── data_types.py │ ├── losses.py │ ├── model.py │ ├── pipelines.py │ ├── reward.py │ ├── sampler.py │ ├── storages.py │ ├── trainer.py │ └── utils.py ├── rouge_metric.py ├── scripts/ │ ├── gpt2/ │ │ ├── distillm/ │ │ │ ├── train_0.1B_1.5B.sh │ │ │ ├── train_0.3B_1.5B.sh │ │ │ └── train_0.7B_1.5B.sh │ │ ├── eval/ │ │ │ ├── eval_main_dolly.sh │ │ │ ├── eval_main_self_inst.sh │ │ │ ├── eval_main_sinst.sh │ │ │ ├── eval_main_uinst.sh │ │ │ ├── eval_main_vicuna.sh │ │ │ └── run_eval.sh │ │ ├── gkd/ │ │ │ ├── gkd_base.sh │ │ │ ├── gkd_large.sh │ │ │ └── gkd_medium.sh │ │ ├── imitkd/ │ │ │ ├── imitkd_base.sh │ │ │ ├── imitkd_large.sh │ │ │ └── imitkd_medium.sh │ │ ├── init/ │ │ │ ├── init_base.sh │ │ │ ├── init_large.sh │ │ │ └── init_medium.sh │ │ ├── kd/ │ │ │ ├── kd_base.sh │ │ │ ├── kd_large.sh │ │ │ └── kd_medium.sh │ │ ├── minillm/ │ │ │ ├── train_base_xl.sh │ │ │ ├── train_large_xl.sh │ │ │ └── train_medium_xl.sh │ │ ├── seqkd/ │ │ │ ├── seqkd_base.sh │ │ │ ├── seqkd_large.sh │ │ │ └── seqkd_medium.sh │ │ ├── sft/ │ │ │ ├── sft_base.sh │ │ │ ├── sft_large.sh │ │ │ ├── sft_medium.sh │ │ │ └── sft_xlarge.sh │ │ └── tools/ │ │ ├── generate_data_seqkd.sh │ │ ├── process_data_dolly.sh │ │ ├── process_data_pretrain.sh │ │ └── process_pseudo_data_seqkd.sh │ ├── openllama2/ │ │ ├── distillm/ │ │ │ └── train_3B_7B_teacher_lora.sh │ │ ├── eval/ │ │ │ ├── eval_main_dolly_lora.sh │ │ │ ├── eval_main_self_inst_lora.sh │ │ │ ├── eval_main_sinst_lora.sh │ │ │ ├── eval_main_uinst_lora.sh │ │ │ ├── eval_main_vicuna_lora.sh │ │ │ └── run_eval.sh │ │ ├── gkd/ │ │ │ └── gkd_3B_7B_teacher_lora.sh │ │ ├── imitkd/ │ │ │ └── imitkd_3B_7B_teacher_lora.sh │ │ ├── init/ │ │ │ └── sft_3B_lora.sh │ │ ├── kd/ │ │ │ └── kd_3B_7B_teacher_lora.sh │ │ ├── minillm/ │ │ │ └── train_3B_7B_lora.sh │ │ ├── seqkd/ │ │ │ └── seqkd_3B_7B_teacher_lora.sh │ │ ├── sft/ │ │ │ ├── sft_3B_lora.sh │ │ │ └── sft_7B_lora.sh │ │ └── tools/ │ │ ├── generate_data_seqkd.sh │ │ ├── process_data_dolly.sh │ │ ├── process_data_pretrain.sh │ │ └── process_pseudo_data_seqkd.sh │ └── opt/ │ ├── distillm/ │ │ ├── train_0.1B_2.7B.sh │ │ ├── train_0.3B_2.7B.sh │ │ └── train_1.3B_2.7B.sh │ ├── eval/ │ │ ├── eval_main_dolly.sh │ │ ├── eval_main_self_inst.sh │ │ ├── eval_main_sinst.sh │ │ ├── eval_main_uinst.sh │ │ ├── eval_main_vicuna.sh │ │ └── run_eval.sh │ ├── gkd/ │ │ ├── gkd_0.1B_2.7B.sh │ │ ├── gkd_0.3B_2.7B.sh │ │ └── gkd_1.3B_2.7B.sh │ ├── imitkd/ │ │ ├── imitkd_0.1B_2.7B.sh │ │ ├── imitkd_0.3B_2.7B.sh │ │ └── imitkd_1.3B_2.7B.sh │ ├── init/ │ │ ├── init_0.1B.sh │ │ ├── init_0.3B.sh │ │ └── init_1.3B.sh │ ├── kd/ │ │ ├── kd_0.1B_2.7B.sh │ │ ├── kd_0.3B_2.7B.sh │ │ └── kd_1.3B_2.7B.sh │ ├── minillm/ │ │ ├── train_0.1B_2.7B.sh │ │ ├── train_0.3B_2.7B.sh │ │ └── train_1.3B_2.7B.sh │ ├── seqkd/ │ │ ├── seqkd_0.1B_2.7B.sh │ │ ├── seqkd_0.3B_2.7B.sh │ │ └── seqkd_1.3B_2.7B.sh │ ├── sft/ │ │ ├── sft_0.1B.sh │ │ ├── sft_0.3B.sh │ │ ├── sft_1.3B.sh │ │ └── sft_2.7B.sh │ └── tools/ │ ├── generate_data_seqkd.sh │ ├── process_data_dolly.sh │ ├── process_data_pretrain.sh │ └── process_pseudo_data_seqkd.sh ├── tools/ │ ├── convert_mp.py │ ├── get_openwebtext.py │ ├── process_data_dolly.py │ └── process_data_pretrain.py ├── train_minillm.py └── utils.py