gitextract_ahrom3jo/ ├── .gitignore ├── DATA_LICENSE ├── DISCLAIMER ├── HOW_TO_CONTRIBUTE.md ├── LICENSE ├── README.md ├── README_en.md ├── chat/ │ ├── README.md │ └── README_en.md ├── docker/ │ ├── README.md │ ├── belle.dockerfile │ ├── build_dockerfile_upon_transfermers.sh │ ├── docker_run.sh │ ├── transformers.dockerfile │ └── upload_image.sh ├── docs/ │ └── README.md ├── eval/ │ ├── ChatGPT_Score.html │ ├── README.md │ ├── README_en.md │ ├── eval_prompt.json │ ├── eval_set.json │ ├── generation_html.py │ └── template_html/ │ └── ChatGPT_Score.html.temp ├── models/ │ ├── Belle-VL/ │ │ └── README.md │ ├── README.md │ ├── README_en.md │ ├── decrypt.py │ ├── gptq/ │ │ ├── README.md │ │ ├── bloom.py │ │ ├── bloom_inference.py │ │ ├── datautils.py │ │ ├── gptq.py │ │ ├── llama.py │ │ ├── llama_inference.py │ │ ├── llama_inference_offload.py │ │ ├── modelutils.py │ │ ├── quant.py │ │ ├── quant_cuda.cpp │ │ ├── quant_cuda_kernel.cu │ │ ├── requirements.txt │ │ ├── setup_cuda.py │ │ └── test_kernel.py │ └── notebook/ │ ├── BELLE_INFER_COLAB.ipynb │ └── README.md ├── requirements.txt └── train/ ├── README.md ├── README_FT.md ├── README_RLHF.md ├── README_ZERO_INFERENCE.md ├── configs/ │ ├── accelerate_config_ppo.yaml │ ├── accelerate_config_rm.yaml │ ├── deepspeed_config.json │ ├── deepspeed_config_flops_profile.json │ ├── deepspeed_config_ppo.json │ ├── deepspeed_config_rm.json │ ├── deepspeed_config_stage3.json │ ├── deepspeed_config_stage3_dpo.json │ ├── deepspeed_config_stage3_flops_profile.json │ ├── deepspeed_config_stage3_inference.json │ ├── hostfile │ ├── lora_config_bloom.json │ └── lora_config_llama.json ├── docs/ │ ├── FAQ.md │ └── README_en.md ├── dschat_train_v1/ │ ├── FAQ.md │ ├── README.md │ ├── docker/ │ │ └── Dockerfile │ ├── main.py │ ├── prompt_eval.py │ ├── reproduce_our_papers/ │ │ └── Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation.md │ ├── training_scripts/ │ │ ├── convert_llama_weights_to_hf.py │ │ ├── convert_to_conv_data.py │ │ ├── single_gpu/ │ │ │ ├── run_FT.sh │ │ │ └── run_LoRA.sh │ │ └── single_node/ │ │ ├── run_FT.sh │ │ └── run_LoRA.sh │ └── utils/ │ ├── ds_utils.py │ ├── model/ │ │ └── model_utils.py │ ├── module/ │ │ └── lora.py │ └── utils.py ├── reproduce_our_papers/ │ └── Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation.md ├── scripts/ │ ├── convert_llama_weights_to_hf.py │ ├── convert_to_conv_data.py │ ├── merge_lora.sh │ ├── merge_tokenizers.py │ ├── multinode_run.sh │ ├── run_dpo.sh │ ├── run_inference.sh │ ├── run_interface.sh │ ├── run_multi_backend.py │ ├── run_multi_backend.sh │ ├── run_ppo.sh │ ├── run_pt.sh │ ├── run_rm.sh │ ├── run_sft.sh │ ├── run_zero_inference.sh │ └── run_zero_inference_backend_without_trainer.sh └── src/ ├── dpo_trainer.py ├── entry_point/ │ ├── dpo_train.py │ ├── evaluation.ipynb │ ├── inference.py │ ├── interface.py │ ├── ppo_train.py │ ├── pt_train.py │ ├── rm_train.py │ ├── sft_train.py │ ├── zero_inference.py │ └── zero_inference_backend_without_trainer.py ├── merge_llama_with_lora.py ├── models/ │ ├── generation_utils.py │ └── llama/ │ └── modeling_llama.py ├── ppo_trainer.py ├── sample_generator.py ├── trainer.py └── utils.py