gitextract_138ju87y/ ├── README.md ├── docs/ │ └── INSTALL_ON_WINDOWS.md ├── examples/ │ ├── data_prepare.sh │ ├── eval_pretrain.sh │ ├── eval_reward.sh │ ├── pred_pretrain.sh │ ├── pred_reward.sh │ ├── pretrain.sh │ ├── train_dpo.sh │ ├── train_reward.sh │ ├── train_rlhf.sh │ └── train_sft.sh ├── notebook/ │ ├── data_prepare.ipynb │ ├── reward.ipynb │ ├── rlhf.ipynb │ ├── sft.ipynb │ └── test.ipynb ├── requirements.txt └── src/ ├── __init__.py ├── data/ │ ├── __init__.py │ ├── data.py │ ├── data_types.py │ └── pipeline.py ├── data_prepare.py ├── eval_pretrain.py ├── models/ │ ├── __init__.py │ ├── loss.py │ ├── ppo.py │ ├── reward.py │ ├── rlhf_engine.py │ └── trainer.py ├── pretrain.py ├── pretrain_wo_trainer.py ├── resources/ │ ├── config/ │ │ ├── deepspeed/ │ │ │ ├── Experiment.md │ │ │ ├── README.md │ │ │ ├── stage-1.json │ │ │ ├── stage-2.json │ │ │ ├── stage-3-no_trainer.json │ │ │ └── stage-3.json │ │ ├── log.conf │ │ └── ppo_model/ │ │ ├── ppo_config_glm-350M-chinese.yml │ │ ├── ppo_config_glm-small.yml │ │ ├── ppo_config_pangu-2.6B.yml │ │ └── ppo_config_pangu-350M.yml │ ├── dict/ │ │ └── jieba_custom_dict.txt │ ├── eval/ │ │ ├── ceval/ │ │ │ ├── subject_mapping.json │ │ │ └── submission_example.json │ │ └── mmlu/ │ │ └── subject_mapping.json │ └── models/ │ ├── baichuan-13B-base/ │ │ ├── config.json │ │ ├── configuration_baichuan.py │ │ ├── modeling_baichuan.py │ │ ├── tokenization_baichuan.py │ │ └── tokenizer_config.json │ ├── baichuan-13B-chat/ │ │ ├── config.json │ │ ├── configuration_baichuan.py │ │ ├── modeling_baichuan.py │ │ ├── tokenization_baichuan.py │ │ └── tokenizer_config.json │ ├── baichuan-7B/ │ │ ├── config.json │ │ ├── configuration_baichuan.py │ │ ├── modeling_baichuan.py │ │ ├── tokenization_baichuan.py │ │ └── tokenizer_config.json │ ├── chatglm-6B/ │ │ ├── README.md │ │ ├── config.json │ │ ├── configuration_chatglm.py │ │ ├── modeling_chatglm.py │ │ ├── quantization.py │ │ ├── tokenization_chatglm.py │ │ └── tokenizer_config.json │ ├── chatglm2-6B/ │ │ ├── config.json │ │ ├── configuration_chatglm.py │ │ ├── modeling_chatglm.py │ │ ├── quantization.py │ │ ├── tokenization_chatglm.py │ │ └── tokenizer_config.json │ ├── chatglm3-6B/ │ │ ├── config.json │ │ ├── configuration_chatglm.py │ │ ├── modeling_chatglm.py │ │ ├── quantization.py │ │ ├── tokenization_chatglm.py │ │ └── tokenizer_config.json │ ├── glm-10B-chinese/ │ │ ├── README.md │ │ ├── added_tokens.json │ │ ├── config.json │ │ ├── configuration_glm.py │ │ ├── modeling_glm.py │ │ ├── tokenization_glm.py │ │ └── tokenizer_config.json │ ├── glm-350M-chinese/ │ │ ├── README.md │ │ ├── added_tokens.json │ │ ├── config.json │ │ ├── configuration_glm.py │ │ ├── modeling_glm.py │ │ ├── tokenization_glm.py │ │ └── tokenizer_config.json │ ├── pangu-13B/ │ │ ├── config.json │ │ ├── configuration_gptpangu.py │ │ ├── modeling_gptpangu.py │ │ ├── tokenization_gptpangu.py │ │ └── tokenizer_config.json │ ├── pangu-2.6B/ │ │ ├── config.json │ │ ├── configuration_gptpangu.py │ │ ├── modeling_gptpangu.py │ │ ├── tokenization_gptpangu.py │ │ └── tokenizer_config.json │ ├── pangu-350M/ │ │ ├── README-Reward.md │ │ ├── README-SFT.md │ │ ├── README.md │ │ ├── config.json │ │ ├── configuration_gptpangu.py │ │ ├── modeling_gptpangu.py │ │ ├── tokenization_gptpangu.py │ │ └── tokenizer_config.json │ └── qwen-7B-chat/ │ ├── config.json │ ├── configuration_qwen.py │ ├── generation_config.json │ ├── modeling_qwen.py │ ├── qwen_generation_utils.py │ ├── tokenization_qwen.py │ └── tokenizer_config.json ├── train_dpo.py ├── train_reward.py ├── train_rlhf.py ├── train_rlhf_trlx.py ├── train_sft.py ├── train_sft_wo_trainer.py └── utils/ ├── __init__.py ├── config.py ├── file_utils.py ├── loading.py ├── logger.py ├── method_configs.py ├── modeling_utils.py └── nlp_utils.py