gitextract_mlwsex56/ ├── .gitattributes ├── LICENSE ├── README.md ├── llava-train_videochat/ │ ├── .dockerignore │ ├── .editorconfig │ ├── .gitattributes │ ├── .gitignore │ ├── LICENSE │ ├── README.md │ ├── cog.yaml │ ├── data/ │ │ ├── ablation_short-long_mix_sft.yaml │ │ ├── stage1_init_connector_iv1m.yaml │ │ ├── stage2_short_pretrain_iv6m.yaml │ │ ├── stage3_short-long_mix_sft.yaml │ │ └── stage4_highres_postsft.yaml │ ├── llava/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── conversation.py │ │ ├── dist_utils.py │ │ ├── mm_utils.py │ │ ├── model/ │ │ │ ├── __init__.py │ │ │ ├── apply_delta.py │ │ │ ├── builder.py │ │ │ ├── consolidate.py │ │ │ ├── language_model/ │ │ │ │ ├── llava_qwen.py │ │ │ │ ├── llava_qwen_flash.py │ │ │ │ └── modeling_qwen2_flash.py │ │ │ ├── llava_arch.py │ │ │ ├── make_delta.py │ │ │ ├── multimodal_encoder/ │ │ │ │ ├── builder.py │ │ │ │ ├── clip_encoder.py │ │ │ │ ├── internvideo2/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── flash_attention_class.py │ │ │ │ │ ├── pos_embed.py │ │ │ │ │ └── vit_scale_clean.py │ │ │ │ ├── internvideo2_encoder.py │ │ │ │ ├── siglip_encoder.py │ │ │ │ ├── umt/ │ │ │ │ │ └── vit.py │ │ │ │ └── umt_encoder.py │ │ │ ├── multimodal_projector/ │ │ │ │ ├── builder.py │ │ │ │ └── tome16_mlp_hd64.py │ │ │ └── utils.py │ │ ├── serialize_utils.py │ │ ├── train/ │ │ │ ├── llava_trainer.py │ │ │ ├── llava_trainer_eval.py │ │ │ ├── train.py │ │ │ └── train_mem.py │ │ ├── utils.py │ │ └── video_utils.py │ ├── pyproject.toml │ ├── requirements.txt │ └── scripts/ │ ├── train/ │ │ ├── stage1-init_connector/ │ │ │ ├── stage1_internvideo2_tome16_res224_qwen7b.sh │ │ │ ├── stage1_umt_tome16_res224_qwen7b.sh │ │ │ └── stage1_umt_tome16_res448_qwen1_5b.sh │ │ ├── stage2-visual_pretraining/ │ │ │ ├── stage2_internvideo2_tome16_res224_qwen_7b.sh │ │ │ ├── stage2_umt_tome16_res224_qwen_7b.sh │ │ │ └── stage2_umt_tome16_res448_qwen_1_5b.sh │ │ ├── stage3-video_sft/ │ │ │ ├── stage3_internvideo2_tome16_res224_qwen_7b.sh │ │ │ ├── stage3_umt_tome16_res224_qwen_7b.sh │ │ │ └── stage3_umt_tome16_res448_qwen_1_5b.sh │ │ └── stage4_highres_postft/ │ │ └── stage4_umt_tome16_res448_qwen_7b.sh │ ├── zero1.json │ ├── zero2.json │ ├── zero2_fused_adamw.json │ ├── zero2_offload.json │ ├── zero3.json │ ├── zero3_offload.json │ └── zero3pp.json ├── lmms-eval_videochat/ │ ├── .gitignore │ ├── .pre-commit-config.yaml │ ├── LICENSE │ ├── README.md │ ├── docs/ │ │ ├── README.md │ │ ├── commands.md │ │ ├── current_tasks.md │ │ ├── model_guide.md │ │ ├── run_examples.md │ │ └── task_guide.md │ ├── eval_annotations/ │ │ ├── LVBench/ │ │ │ ├── README.md │ │ │ └── json/ │ │ │ ├── lvbench_clean.json │ │ │ ├── lvbench_clean_cartoon.json │ │ │ ├── lvbench_clean_documentary.json │ │ │ ├── lvbench_clean_live.json │ │ │ ├── lvbench_clean_selfmedia.json │ │ │ ├── lvbench_clean_sport.json │ │ │ └── lvbench_clean_tv.json │ │ ├── LongVideoBench/ │ │ │ ├── README.md │ │ │ ├── lvb_test_wo_gt.json │ │ │ ├── lvb_val.json │ │ │ ├── test-00000-of-00001.parquet │ │ │ └── validation-00000-of-00001.parquet │ │ ├── MLVU_MC/ │ │ │ ├── README.md │ │ │ └── json/ │ │ │ ├── 1_plotQA.json │ │ │ ├── 2_needle.json │ │ │ ├── 3_ego.json │ │ │ ├── 4_count.json │ │ │ ├── 5_order.json │ │ │ ├── 6_anomaly_reco.json │ │ │ └── 7_topic_reasoning.json │ │ ├── MVBench/ │ │ │ ├── README.md │ │ │ └── json/ │ │ │ ├── action_antonym.json │ │ │ ├── action_count.json │ │ │ ├── action_localization.json │ │ │ ├── action_prediction.json │ │ │ ├── action_sequence.json │ │ │ ├── character_order.json │ │ │ ├── counterfactual_inference.json │ │ │ ├── egocentric_navigation.json │ │ │ ├── episodic_reasoning.json │ │ │ ├── fine_grained_action.json │ │ │ ├── fine_grained_pose.json │ │ │ ├── moving_attribute.json │ │ │ ├── moving_count.json │ │ │ ├── moving_direction.json │ │ │ ├── object_existence.json │ │ │ ├── object_interaction.json │ │ │ ├── object_shuffle.json │ │ │ ├── scene_transition.json │ │ │ ├── state_change.json │ │ │ └── unexpected_action.json │ │ ├── PerceptionTest/ │ │ │ ├── .gitattributes │ │ │ └── README.md │ │ ├── Temporal_Grounding/ │ │ │ ├── README.md │ │ │ └── json/ │ │ │ └── temporal_grounding_charades.json │ │ └── Video-MME/ │ │ ├── README.md │ │ └── videomme/ │ │ └── test-00000-of-00001.parquet │ ├── lmms_eval/ │ │ ├── __init__.py │ │ ├── __main__.py │ │ ├── api/ │ │ │ ├── __init__.py │ │ │ ├── filter.py │ │ │ ├── instance.py │ │ │ ├── metrics.py │ │ │ ├── model.py │ │ │ ├── registry.py │ │ │ ├── samplers.py │ │ │ └── task.py │ │ ├── evaluator.py │ │ ├── filters/ │ │ │ ├── __init__.py │ │ │ ├── decontamination.py │ │ │ ├── extraction.py │ │ │ ├── selection.py │ │ │ └── transformation.py │ │ ├── logging_utils.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ └── videochat_flash.py │ │ ├── tasks/ │ │ │ ├── __init__.py │ │ │ ├── _task_utils/ │ │ │ │ ├── file_utils.py │ │ │ │ ├── gpt_eval_utils.py │ │ │ │ ├── video_loader.py │ │ │ │ └── vqa_eval_metric.py │ │ │ ├── longvideobench/ │ │ │ │ ├── longvideobench_test_v.yaml │ │ │ │ ├── longvideobench_val_i.yaml │ │ │ │ ├── longvideobench_val_v.yaml │ │ │ │ └── utils.py │ │ │ ├── lvbench/ │ │ │ │ ├── _default_template.yaml │ │ │ │ ├── lvbench.yaml │ │ │ │ ├── lvbench_cartoon.yaml │ │ │ │ ├── lvbench_documentary.yaml │ │ │ │ ├── lvbench_live.yaml │ │ │ │ ├── lvbench_selfmedia.yaml │ │ │ │ ├── lvbench_sport.yaml │ │ │ │ ├── lvbench_tv.yaml │ │ │ │ └── utils.py │ │ │ ├── mlvu_mc/ │ │ │ │ ├── _default_template.yaml │ │ │ │ ├── mlvu_mc.yaml │ │ │ │ ├── mlvu_mc_anomaly_reco.yaml │ │ │ │ ├── mlvu_mc_count.yaml │ │ │ │ ├── mlvu_mc_ego.yaml │ │ │ │ ├── mlvu_mc_needle.yaml │ │ │ │ ├── mlvu_mc_order.yaml │ │ │ │ ├── mlvu_mc_plotqa.yaml │ │ │ │ ├── mlvu_mc_topic_reasoning.yaml │ │ │ │ └── utils.py │ │ │ ├── mvbench/ │ │ │ │ ├── _default_template.yaml │ │ │ │ ├── mvbench.yaml │ │ │ │ ├── mvbench_action_antonym.yaml │ │ │ │ ├── mvbench_action_count.yaml │ │ │ │ ├── mvbench_action_localization.yaml │ │ │ │ ├── mvbench_action_prediction.yaml │ │ │ │ ├── mvbench_action_sequence.yaml │ │ │ │ ├── mvbench_character_order.yaml │ │ │ │ ├── mvbench_counterfactual_inference.yaml │ │ │ │ ├── mvbench_egocentric_navigation.yaml │ │ │ │ ├── mvbench_episodic_reasoning.yaml │ │ │ │ ├── mvbench_fine_grained_action.yaml │ │ │ │ ├── mvbench_fine_grained_pose.yaml │ │ │ │ ├── mvbench_moving_attribute.yaml │ │ │ │ ├── mvbench_moving_count.yaml │ │ │ │ ├── mvbench_moving_direction.yaml │ │ │ │ ├── mvbench_object_existence.yaml │ │ │ │ ├── mvbench_object_interaction.yaml │ │ │ │ ├── mvbench_object_shuffle.yaml │ │ │ │ ├── mvbench_scene_transition.yaml │ │ │ │ ├── mvbench_state_change.yaml │ │ │ │ ├── mvbench_unexpected_action.yaml │ │ │ │ └── utils.py │ │ │ ├── perceptiontest/ │ │ │ │ └── val/ │ │ │ │ ├── _default_template_yaml │ │ │ │ ├── perceptiontest_mc.yaml │ │ │ │ └── utils.py │ │ │ ├── temporal_grounding/ │ │ │ │ ├── _default_template.yaml │ │ │ │ ├── charades.yaml │ │ │ │ ├── eval_tvg.py │ │ │ │ └── utils.py │ │ │ └── videomme/ │ │ │ ├── utils.py │ │ │ ├── videomme.yaml │ │ │ └── videomme_w_subtitle.yaml │ │ └── utils.py │ ├── pyproject.toml │ ├── scripts/ │ │ ├── eval_longvideobench.sh │ │ ├── eval_lvbench.sh │ │ ├── eval_mlvu.sh │ │ ├── eval_mvbench.sh │ │ ├── eval_perceptiontest_val_mc.sh │ │ ├── eval_temporal_grounding_chardes.sh │ │ └── eval_videomme.sh │ ├── setup.py │ └── videochat-flash-7B@448_eval_log_videomme.json ├── xtuner-eval_niah/ │ ├── README.md │ ├── llava/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── conversation.py │ │ ├── dist_utils.py │ │ ├── mm_utils.py │ │ ├── model/ │ │ │ ├── __init__.py │ │ │ ├── apply_delta.py │ │ │ ├── builder.py │ │ │ ├── consolidate.py │ │ │ ├── language_model/ │ │ │ │ ├── llava_qwen.py │ │ │ │ ├── llava_qwen_flash.py │ │ │ │ └── modeling_qwen2_flash.py │ │ │ ├── llava_arch.py │ │ │ ├── make_delta.py │ │ │ ├── multimodal_encoder/ │ │ │ │ ├── builder.py │ │ │ │ ├── clip_encoder.py │ │ │ │ ├── internvideo2/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── flash_attention_class.py │ │ │ │ │ ├── pos_embed.py │ │ │ │ │ └── vit_scale_clean.py │ │ │ │ ├── internvideo2_encoder.py │ │ │ │ ├── siglip_encoder.py │ │ │ │ ├── umt/ │ │ │ │ │ └── vit.py │ │ │ │ └── umt_encoder.py │ │ │ ├── multimodal_projector/ │ │ │ │ ├── builder.py │ │ │ │ └── tome16_mlp_hd64.py │ │ │ └── utils.py │ │ ├── serialize_utils.py │ │ ├── train/ │ │ │ ├── llava_trainer.py │ │ │ ├── llava_trainer_eval.py │ │ │ ├── train.py │ │ │ └── train_mem.py │ │ ├── utils.py │ │ └── video_utils.py │ ├── longva/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── conversation.py │ │ ├── mm_utils.py │ │ ├── model/ │ │ │ ├── __init__.py │ │ │ ├── apply_delta.py │ │ │ ├── builder.py │ │ │ ├── consolidate.py │ │ │ ├── language_model/ │ │ │ │ ├── llava_llama.py │ │ │ │ ├── llava_mistral.py │ │ │ │ ├── llava_mpt.py │ │ │ │ ├── llava_qwen.py │ │ │ │ └── modeling_llama.py │ │ │ ├── llava_arch.py │ │ │ ├── make_delta.py │ │ │ ├── multimodal_encoder/ │ │ │ │ ├── builder.py │ │ │ │ └── clip_encoder.py │ │ │ ├── multimodal_projector/ │ │ │ │ ├── builder.py │ │ │ │ └── pooler_projector.py │ │ │ ├── multimodal_resampler/ │ │ │ │ ├── builder.py │ │ │ │ ├── masked_drop.py │ │ │ │ ├── perceiver.py │ │ │ │ ├── qformer.py │ │ │ │ └── spatial_pool.py │ │ │ └── utils.py │ │ ├── train/ │ │ │ ├── llama_flash_attn_monkey_patch.py │ │ │ ├── llava_trainer.py │ │ │ ├── train.py │ │ │ ├── train_dpo.py │ │ │ └── train_mem.py │ │ └── utils.py │ ├── niah_requirements.txt │ ├── tmp/ │ │ └── git_placeholder │ ├── vision_niah/ │ │ ├── data/ │ │ │ ├── haystack_embeddings/ │ │ │ │ └── git_placeholder │ │ │ ├── haystack_videos/ │ │ │ │ └── git_placeholder │ │ │ ├── needle_embeddings/ │ │ │ │ └── git_placeholder │ │ │ └── source_data/ │ │ │ ├── git_placeholder │ │ │ └── niah-coco-singlehop_20.json │ │ ├── data_multi/ │ │ │ ├── needle_embeddings/ │ │ │ │ └── git_placeholder │ │ │ └── source_data/ │ │ │ ├── git_placeholder │ │ │ └── niah-coco-multihop-100.json │ │ ├── flash_eval_xtuner_multi.sh │ │ ├── flash_eval_xtuner_single.sh │ │ ├── log/ │ │ │ ├── s1/ │ │ │ │ └── git_placeholder │ │ │ ├── s2/ │ │ │ │ └── git_placeholder │ │ │ └── s3/ │ │ │ └── git_placeholder │ │ ├── longva_eval_xtuner_multi.sh │ │ ├── longva_eval_xtuner_single.sh │ │ ├── model_weights/ │ │ │ └── git_placeholder │ │ ├── multi_eval_vision_niah.py │ │ ├── multi_produce_needle_embedding.py │ │ ├── niah_output_multi/ │ │ │ └── git_placeholder │ │ ├── niah_output_single/ │ │ │ └── git_placeholder │ │ ├── produce_haystack_embedding.py │ │ ├── single_eval_vision_niah.py │ │ └── single_produce_needle_embedding.py │ └── xtuner/ │ ├── __init__.py │ ├── _lite/ │ │ ├── __init__.py │ │ ├── accelerate/ │ │ │ ├── __init__.py │ │ │ ├── dispatches/ │ │ │ │ ├── __init__.py │ │ │ │ ├── _attention.py │ │ │ │ ├── _fused/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── layer_norm.py │ │ │ │ │ ├── rms_norm.py │ │ │ │ │ └── rotary.py │ │ │ │ ├── clip.py │ │ │ │ ├── internlm2.py │ │ │ │ ├── llama.py │ │ │ │ └── qwen2.py │ │ │ ├── generate.py │ │ │ ├── lora.py │ │ │ └── packed.py │ │ ├── auto.py │ │ ├── chat/ │ │ │ ├── __init__.py │ │ │ ├── backends/ │ │ │ │ └── __init__.py │ │ │ ├── messages/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base.py │ │ │ │ └── chat.py │ │ │ └── templates/ │ │ │ ├── __init__.py │ │ │ ├── chat.py │ │ │ └── hybrid.py │ │ ├── datasets/ │ │ │ ├── __init__.py │ │ │ ├── cache.py │ │ │ ├── format.py │ │ │ ├── llava.py │ │ │ ├── load.py │ │ │ ├── pretrain.py │ │ │ ├── text.py │ │ │ └── tokenize.py │ │ ├── modelings/ │ │ │ ├── __init__.py │ │ │ ├── internlm2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_internlm2.py │ │ │ │ └── modeling_internlm2.py │ │ │ └── llava/ │ │ │ ├── __init__.py │ │ │ ├── configuration_internlm2.py │ │ │ ├── configuration_llava.py │ │ │ ├── modeling_internlm2.py │ │ │ ├── modeling_llava.py │ │ │ └── processing_llava.py │ │ ├── parallel/ │ │ │ ├── __init__.py │ │ │ ├── comm.py │ │ │ ├── fsdp/ │ │ │ │ ├── __init__.py │ │ │ │ ├── checkpointing.py │ │ │ │ ├── lazy.py │ │ │ │ ├── precision.py │ │ │ │ └── wrap.py │ │ │ ├── logger.py │ │ │ ├── plans/ │ │ │ │ └── internlm2.py │ │ │ ├── sampler.py │ │ │ ├── sequence/ │ │ │ │ ├── __init__.py │ │ │ │ ├── attention.py │ │ │ │ ├── data_collate.py │ │ │ │ ├── ops.py │ │ │ │ └── reduce_loss.py │ │ │ └── setup.py │ │ └── yunchang/ │ │ ├── __init__.py │ │ ├── comm/ │ │ │ ├── __init__.py │ │ │ ├── all_to_all.py │ │ │ └── extract_local.py │ │ ├── globals.py │ │ ├── hybrid/ │ │ │ ├── __init__.py │ │ │ ├── async_attn_layer.py │ │ │ ├── attn_layer.py │ │ │ └── utils.py │ │ ├── ring/ │ │ │ ├── __init__.py │ │ │ ├── llama3_flash_attn_varlen.py │ │ │ ├── ring_flash_attn.py │ │ │ ├── ring_flash_attn_varlen.py │ │ │ ├── stripe_flash_attn.py │ │ │ ├── triton_utils.py │ │ │ ├── utils.py │ │ │ ├── zigzag_ring_flash_attn.py │ │ │ └── zigzag_ring_flash_attn_varlen.py │ │ └── ulysses/ │ │ ├── __init__.py │ │ └── attn_layer.py │ ├── apis/ │ │ ├── __init__.py │ │ ├── datasets/ │ │ │ ├── __init__.py │ │ │ ├── alpaca.py │ │ │ ├── arxiv.py │ │ │ ├── code_alpaca.py │ │ │ ├── colorist.py │ │ │ ├── lawyer.py │ │ │ ├── medical.py │ │ │ ├── moss_003_sft.py │ │ │ ├── oasst1.py │ │ │ ├── open_orca.py │ │ │ ├── sql.py │ │ │ ├── tiny_codes.py │ │ │ └── wizardlm.py │ │ ├── model.py │ │ └── training_args.py │ ├── configs/ │ │ ├── __init__.py │ │ ├── baichuan/ │ │ │ ├── baichuan2_13b_base/ │ │ │ │ ├── baichuan2_13b_base_qlora_alpaca_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_alpaca_enzh_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_alpaca_zh_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_code_alpaca_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_colorist_e5.py │ │ │ │ ├── baichuan2_13b_base_qlora_lawyer_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_oasst1_512_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_oasst1_e3.py │ │ │ │ ├── baichuan2_13b_base_qlora_open_platypus_e3.py │ │ │ │ └── baichuan2_13b_base_qlora_sql_e3.py │ │ │ ├── baichuan2_13b_chat/ │ │ │ │ ├── baichuan2_13b_chat_qlora_alpaca_e3.py │ │ │ │ ├── baichuan2_13b_chat_qlora_alpaca_enzh_e3.py │ │ │ │ ├── baichuan2_13b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── baichuan2_13b_chat_qlora_alpaca_zh_e3.py │ │ │ │ ├── baichuan2_13b_chat_qlora_code_alpaca_e3.py │ │ │ │ ├── baichuan2_13b_chat_qlora_lawyer_e3.py │ │ │ │ ├── baichuan2_13b_chat_qlora_oasst1_512_e3.py │ │ │ │ ├── baichuan2_13b_chat_qlora_oasst1_e3.py │ │ │ │ └── baichuan2_13b_chat_qlora_open_platypus_e3.py │ │ │ ├── baichuan2_7b_base/ │ │ │ │ ├── baichuan2_7b_base_qlora_alpaca_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_alpaca_enzh_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_alpaca_zh_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_code_alpaca_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_colorist_e5.py │ │ │ │ ├── baichuan2_7b_base_qlora_lawyer_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_oasst1_512_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_oasst1_e3.py │ │ │ │ ├── baichuan2_7b_base_qlora_open_platypus_e3.py │ │ │ │ └── baichuan2_7b_base_qlora_sql_e3.py │ │ │ ├── baichuan2_7b_chat/ │ │ │ │ ├── baichuan2_7b_chat_qlora_alpaca_e3.py │ │ │ │ ├── baichuan2_7b_chat_qlora_alpaca_enzh_e3.py │ │ │ │ ├── baichuan2_7b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── baichuan2_7b_chat_qlora_alpaca_zh_e3.py │ │ │ │ ├── baichuan2_7b_chat_qlora_code_alpaca_e3.py │ │ │ │ ├── baichuan2_7b_chat_qlora_lawyer_e3.py │ │ │ │ ├── baichuan2_7b_chat_qlora_oasst1_512_e3.py │ │ │ │ ├── baichuan2_7b_chat_qlora_oasst1_e3.py │ │ │ │ └── baichuan2_7b_chat_qlora_open_platypus_e3.py │ │ │ ├── baichuan_13b_base/ │ │ │ │ ├── baichuan_13b_base_qlora_alpaca_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_alpaca_enzh_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_alpaca_zh_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_code_alpaca_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_colorist_e5.py │ │ │ │ ├── baichuan_13b_base_qlora_lawyer_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_medical_e1.py │ │ │ │ ├── baichuan_13b_base_qlora_moss_sft_all_e1.py │ │ │ │ ├── baichuan_13b_base_qlora_moss_sft_all_e2_gpu8.py │ │ │ │ ├── baichuan_13b_base_qlora_moss_sft_plugins_e1.py │ │ │ │ ├── baichuan_13b_base_qlora_oasst1_512_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_oasst1_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_open_platypus_e3.py │ │ │ │ ├── baichuan_13b_base_qlora_openorca_e1.py │ │ │ │ ├── baichuan_13b_base_qlora_sql_e3.py │ │ │ │ └── baichuan_13b_base_qlora_tiny_codes_e1.py │ │ │ ├── baichuan_13b_chat/ │ │ │ │ ├── baichuan_13b_chat_qlora_alpaca_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_alpaca_enzh_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_alpaca_zh_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_code_alpaca_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_colorist_e5.py │ │ │ │ ├── baichuan_13b_chat_qlora_lawyer_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_medical_e1.py │ │ │ │ ├── baichuan_13b_chat_qlora_oasst1_512_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_oasst1_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_open_platypus_e3.py │ │ │ │ ├── baichuan_13b_chat_qlora_openorca_e1.py │ │ │ │ ├── baichuan_13b_chat_qlora_sql_e3.py │ │ │ │ └── baichuan_13b_chat_qlora_tiny_codes_e1.py │ │ │ └── baichuan_7b/ │ │ │ ├── baichuan_7b_qlora_alpaca_e3.py │ │ │ ├── baichuan_7b_qlora_alpaca_enzh_e3.py │ │ │ ├── baichuan_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── baichuan_7b_qlora_alpaca_zh_e3.py │ │ │ ├── baichuan_7b_qlora_arxiv_gentitle_e3.py │ │ │ ├── baichuan_7b_qlora_code_alpaca_e3.py │ │ │ ├── baichuan_7b_qlora_colorist_e5.py │ │ │ ├── baichuan_7b_qlora_lawyer_e3.py │ │ │ ├── baichuan_7b_qlora_medical_e1.py │ │ │ ├── baichuan_7b_qlora_moss_sft_all_e1.py │ │ │ ├── baichuan_7b_qlora_moss_sft_all_e2_gpu8.py │ │ │ ├── baichuan_7b_qlora_moss_sft_plugins_e1.py │ │ │ ├── baichuan_7b_qlora_oasst1_512_e3.py │ │ │ ├── baichuan_7b_qlora_oasst1_e3.py │ │ │ ├── baichuan_7b_qlora_open_platypus_e3.py │ │ │ ├── baichuan_7b_qlora_openorca_e1.py │ │ │ ├── baichuan_7b_qlora_sql_e3.py │ │ │ └── baichuan_7b_qlora_tiny_codes_e1.py │ │ ├── chatglm/ │ │ │ ├── chatglm2_6b/ │ │ │ │ ├── chatglm2_6b_qlora_alpaca_e3.py │ │ │ │ ├── chatglm2_6b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── chatglm2_6b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── chatglm2_6b_qlora_alpaca_zh_e3.py │ │ │ │ ├── chatglm2_6b_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── chatglm2_6b_qlora_code_alpaca_e3.py │ │ │ │ ├── chatglm2_6b_qlora_colorist_e5.py │ │ │ │ ├── chatglm2_6b_qlora_lawyer_e3.py │ │ │ │ ├── chatglm2_6b_qlora_medical_e1.py │ │ │ │ ├── chatglm2_6b_qlora_oasst1_512_e3.py │ │ │ │ ├── chatglm2_6b_qlora_oasst1_e3.py │ │ │ │ ├── chatglm2_6b_qlora_open_platypus_e3.py │ │ │ │ ├── chatglm2_6b_qlora_openorca_e1.py │ │ │ │ ├── chatglm2_6b_qlora_sql_e3.py │ │ │ │ └── chatglm2_6b_qlora_tiny_codes_e1.py │ │ │ ├── chatglm3_6b/ │ │ │ │ ├── chatglm3_6b_qlora_alpaca_e3.py │ │ │ │ ├── chatglm3_6b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── chatglm3_6b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── chatglm3_6b_qlora_alpaca_zh_e3.py │ │ │ │ ├── chatglm3_6b_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── chatglm3_6b_qlora_code_alpaca_e3.py │ │ │ │ ├── chatglm3_6b_qlora_colorist_e5.py │ │ │ │ ├── chatglm3_6b_qlora_lawyer_e3.py │ │ │ │ ├── chatglm3_6b_qlora_medical_e1.py │ │ │ │ ├── chatglm3_6b_qlora_oasst1_512_e3.py │ │ │ │ ├── chatglm3_6b_qlora_oasst1_e3.py │ │ │ │ ├── chatglm3_6b_qlora_open_platypus_e3.py │ │ │ │ ├── chatglm3_6b_qlora_openorca_e1.py │ │ │ │ ├── chatglm3_6b_qlora_sql_e3.py │ │ │ │ └── chatglm3_6b_qlora_tiny_codes_e1.py │ │ │ └── chatglm3_6b_base/ │ │ │ ├── chatglm3_6b_base_qlora_alpaca_e3.py │ │ │ ├── chatglm3_6b_base_qlora_alpaca_enzh_e3.py │ │ │ ├── chatglm3_6b_base_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── chatglm3_6b_base_qlora_alpaca_zh_e3.py │ │ │ ├── chatglm3_6b_base_qlora_arxiv_gentitle_e3.py │ │ │ ├── chatglm3_6b_base_qlora_code_alpaca_e3.py │ │ │ ├── chatglm3_6b_base_qlora_colorist_e5.py │ │ │ ├── chatglm3_6b_base_qlora_lawyer_e3.py │ │ │ ├── chatglm3_6b_base_qlora_medical_e1.py │ │ │ ├── chatglm3_6b_base_qlora_oasst1_512_e3.py │ │ │ ├── chatglm3_6b_base_qlora_oasst1_e3.py │ │ │ ├── chatglm3_6b_base_qlora_open_platypus_e3.py │ │ │ ├── chatglm3_6b_base_qlora_openorca_e1.py │ │ │ ├── chatglm3_6b_base_qlora_sql_e3.py │ │ │ └── chatglm3_6b_base_qlora_tiny_codes_e1.py │ │ ├── cohere/ │ │ │ ├── README.md │ │ │ └── cohere_104b/ │ │ │ └── cohere_100b_128k_sp32.py │ │ ├── custom_dataset/ │ │ │ ├── pretrain/ │ │ │ │ ├── baichuan/ │ │ │ │ │ ├── baichuan2_13b_base_full_custom_pretrain_e1.py │ │ │ │ │ └── baichuan2_7b_base_full_custom_pretrain_e1.py │ │ │ │ ├── chatglm/ │ │ │ │ │ ├── chatglm2_6b_full_custom_pretrain_e1.py │ │ │ │ │ └── chatglm3_6b_full_custom_pretrain_e1.py │ │ │ │ ├── deepseek/ │ │ │ │ │ └── deepseek_moe_16b_base_full_custom_pretrain_e1.py │ │ │ │ ├── gemma/ │ │ │ │ │ ├── gemma_2b_full_custom_pretrain_e1.py │ │ │ │ │ └── gemma_7b_full_custom_pretrain_e1.py │ │ │ │ ├── internlm/ │ │ │ │ │ ├── internlm2_1_8b_full_custom_pretrain_e1.py │ │ │ │ │ ├── internlm2_20b_full_custom_pretrain_e1.py │ │ │ │ │ └── internlm2_7b_full_custom_pretrain_e1.py │ │ │ │ ├── llama/ │ │ │ │ │ ├── llama2_70b_full_custom_pretrain_e1.py │ │ │ │ │ └── llama2_7b_full_custom_pretrain_e1.py │ │ │ │ ├── mistral/ │ │ │ │ │ └── mistral_7b_full_custom_pretrain_e1.py │ │ │ │ ├── mixtral/ │ │ │ │ │ └── mixtral_8x7b_full_custom_pretrain_e1.py │ │ │ │ ├── qwen/ │ │ │ │ │ ├── qwen1_5_0_5b_full_custom_pretrain_e1.py │ │ │ │ │ ├── qwen1_5_14b_full_custom_pretrain_e1.py │ │ │ │ │ ├── qwen1_5_1_8b_full_custom_pretrain_e1.py │ │ │ │ │ ├── qwen1_5_4b_full_custom_pretrain_e1.py │ │ │ │ │ ├── qwen1_5_72b_full_custom_pretrain_e1.py │ │ │ │ │ ├── qwen1_5_7b_full_custom_pretrain_e1.py │ │ │ │ │ ├── qwen_1_8b_full_custom_pretrain_e1.py │ │ │ │ │ ├── qwen_72b_full_custom_pretrain_e1.py │ │ │ │ │ └── qwen_7b_full_custom_pretrain_e1.py │ │ │ │ ├── starcoder/ │ │ │ │ │ └── starcoder_full_custom_pretrain_e1.py │ │ │ │ ├── yi/ │ │ │ │ │ ├── yi_34b_full_custom_pretrain_e1.py │ │ │ │ │ └── yi_6b_full_custom_pretrain_e1.py │ │ │ │ └── zephyr/ │ │ │ │ └── zephyr_7b_beta_full_custom_pretrain_e1.py │ │ │ └── sft/ │ │ │ ├── baichuan/ │ │ │ │ ├── baichuan2_13b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── baichuan2_7b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── baichuan_13b_chat_qlora_custom_sft_e1.py │ │ │ │ └── baichuan_7b_qlora_custom_sft_e1.py │ │ │ ├── chatglm/ │ │ │ │ ├── chatglm2_6b_qlora_custom_sft_e1.py │ │ │ │ └── chatglm3_6b_qlora_custom_sft_e1.py │ │ │ ├── deepseek/ │ │ │ │ ├── deepseek_moe_16b_chat_qlora_custom_sft_e1.py │ │ │ │ └── deepseekcoder_6_7b_instruct_qlora_custom_sft_e1.py │ │ │ ├── gemma/ │ │ │ │ ├── gemma_2b_it_qlora_custom_sft_e1.py │ │ │ │ ├── gemma_2b_qlora_custom_sft_e1.py │ │ │ │ ├── gemma_7b_it_qlora_custom_sft_e1.py │ │ │ │ └── gemma_7b_qlora_custom_sft_e1.py │ │ │ ├── internlm/ │ │ │ │ ├── internlm2_chat_1_8b_qlora_custom_sft_e1.py │ │ │ │ ├── internlm2_chat_20b_qlora_custom_sft_e1.py │ │ │ │ └── internlm2_chat_7b_qlora_custom_sft_e1.py │ │ │ ├── llama/ │ │ │ │ ├── llama2_70b_qlora_custom_sft_e1.py │ │ │ │ └── llama2_7b_chat_qlora_custom_sft_e1.py │ │ │ ├── mistral/ │ │ │ │ └── mistral_7b_full_finetune_custom_sft_e1.py │ │ │ ├── mixtral/ │ │ │ │ └── mixtral_8x7b_instruct_qlora_custom_sft_e1.py │ │ │ ├── qwen/ │ │ │ │ ├── qwen1_5_0_5b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── qwen1_5_14b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── qwen1_5_1_8b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── qwen1_5_4b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── qwen1_5_72b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── qwen1_5_7b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── qwen_1_8b_chat_qlora_custom_sft_e1.py │ │ │ │ ├── qwen_72b_qlora_custom_sft_e1.py │ │ │ │ └── qwen_7b_chat_qlora_custom_sft_e1.py │ │ │ ├── starcoder/ │ │ │ │ └── starcoder_qlora_custom_sft_e1.py │ │ │ ├── yi/ │ │ │ │ ├── yi_34b_qlora_custom_sft_e1.py │ │ │ │ └── yi_6b_qlora_custom_sft_e1.py │ │ │ └── zephyr/ │ │ │ └── zephyr_7b_beta_qlora_custom_sft_e1.py │ │ ├── deepseek/ │ │ │ ├── README.md │ │ │ ├── deepseek_coder_6_7b_base/ │ │ │ │ └── deepseek_coder_6_7b_base_qlora_code_alpaca_e3.py │ │ │ ├── deepseek_coder_6_7b_instruct/ │ │ │ │ └── deepseekcoder_6_7b_instruct_qlora_code_alpaca_e3.py │ │ │ ├── deepseek_moe_16b_base/ │ │ │ │ ├── deepseek_moe_16b_base_full_oasst1_e3.py │ │ │ │ └── deepseek_moe_16b_base_qlora_oasst1_e3.py │ │ │ ├── deepseek_moe_16b_chat/ │ │ │ │ ├── deepseek_moe_16b_chat_full_oasst1_e3.py │ │ │ │ └── deepseek_moe_16b_chat_qlora_oasst1_e3.py │ │ │ ├── deepseek_v2_chat/ │ │ │ │ └── deepseek_v2_chat_full_alpaca_e3.py │ │ │ └── deepseek_v2_lite_chat/ │ │ │ ├── deepseek_v2_lite_chat_full_alpaca_e3.py │ │ │ └── deepseek_v2_lite_chat_full_alpaca_e3_32k_varlen.py │ │ ├── deepspeed/ │ │ │ ├── deepspeed_zero1.json │ │ │ ├── deepspeed_zero2.json │ │ │ ├── deepspeed_zero2_offload.json │ │ │ ├── deepspeed_zero3.json │ │ │ └── deepspeed_zero3_offload.json │ │ ├── dpo/ │ │ │ ├── internlm/ │ │ │ │ ├── internlm2_chat_1_8b_dpo_full.py │ │ │ │ ├── internlm2_chat_1_8b_dpo_full_varlenattn.py │ │ │ │ ├── internlm2_chat_1_8b_dpo_full_varlenattn_jsonl_dataset.py │ │ │ │ └── internlm2_chat_7b_dpo_qlora_varlenattn.py │ │ │ └── llama/ │ │ │ └── llama3_8b_instruct_dpo_qlora_varlenattn.py │ │ ├── gemma/ │ │ │ ├── gemma_2b/ │ │ │ │ ├── gemma_2b_full_alpaca_e3.py │ │ │ │ └── gemma_2b_qlora_alpaca_e3.py │ │ │ ├── gemma_2b_it/ │ │ │ │ ├── gemma_2b_it_full_alpaca_e3.py │ │ │ │ └── gemma_2b_it_qlora_alpaca_e3.py │ │ │ ├── gemma_7b/ │ │ │ │ ├── gemma_7b_full_alpaca_e3.py │ │ │ │ └── gemma_7b_qlora_alpaca_e3.py │ │ │ └── gemma_7b_it/ │ │ │ ├── gemma_7b_it_full_alpaca_e3.py │ │ │ └── gemma_7b_it_qlora_alpaca_e3.py │ │ ├── internlm/ │ │ │ ├── internlm2_1_8b/ │ │ │ │ ├── internlm2_1_8b_full_alpaca_e3.py │ │ │ │ └── internlm2_1_8b_qlora_alpaca_e3.py │ │ │ ├── internlm2_20b/ │ │ │ │ ├── internlm2_20b_full_finetune_custom_dataset_e1.py │ │ │ │ ├── internlm2_20b_qlora_alpaca_e3.py │ │ │ │ ├── internlm2_20b_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── internlm2_20b_qlora_code_alpaca_e3.py │ │ │ │ ├── internlm2_20b_qlora_colorist_e5.py │ │ │ │ ├── internlm2_20b_qlora_lawyer_e3.py │ │ │ │ ├── internlm2_20b_qlora_msagent_react_e3_gpu8.py │ │ │ │ ├── internlm2_20b_qlora_oasst1_512_e3.py │ │ │ │ ├── internlm2_20b_qlora_oasst1_e3.py │ │ │ │ └── internlm2_20b_qlora_sql_e3.py │ │ │ ├── internlm2_7b/ │ │ │ │ ├── internlm2_7b_full_finetune_custom_dataset_e1.py │ │ │ │ ├── internlm2_7b_full_finetune_custom_dataset_e1_sequence_parallel_4.py │ │ │ │ ├── internlm2_7b_qlora_alpaca_e3.py │ │ │ │ ├── internlm2_7b_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── internlm2_7b_qlora_code_alpaca_e3.py │ │ │ │ ├── internlm2_7b_qlora_colorist_e5.py │ │ │ │ ├── internlm2_7b_qlora_json_e3.py │ │ │ │ ├── internlm2_7b_qlora_lawyer_e3.py │ │ │ │ ├── internlm2_7b_qlora_msagent_react_e3_gpu8.py │ │ │ │ ├── internlm2_7b_qlora_oasst1_512_e3.py │ │ │ │ ├── internlm2_7b_qlora_oasst1_e3.py │ │ │ │ ├── internlm2_7b_qlora_sql_e3.py │ │ │ │ ├── internlm2_7b_w_internevo_dataset.py │ │ │ │ ├── internlm2_7b_w_tokenized_dataset.py │ │ │ │ └── internlm2_7b_w_untokenized_dataset.py │ │ │ ├── internlm2_chat_1_8b/ │ │ │ │ ├── internlm2_chat_1_8b_full_alpaca_e3.py │ │ │ │ └── internlm2_chat_1_8b_qlora_alpaca_e3.py │ │ │ ├── internlm2_chat_20b/ │ │ │ │ ├── internlm2_chat_20b_full_finetune_custom_dataset_e1.py │ │ │ │ ├── internlm2_chat_20b_qlora_alpaca_e3.py │ │ │ │ ├── internlm2_chat_20b_qlora_code_alpaca_e3.py │ │ │ │ ├── internlm2_chat_20b_qlora_lawyer_e3.py │ │ │ │ ├── internlm2_chat_20b_qlora_oasst1_512_e3.py │ │ │ │ └── internlm2_chat_20b_qlora_oasst1_e3.py │ │ │ ├── internlm2_chat_7b/ │ │ │ │ ├── internlm2_chat_7b_full_finetune_custom_dataset_e1.py │ │ │ │ ├── internlm2_chat_7b_qlora_alpaca_e3.py │ │ │ │ ├── internlm2_chat_7b_qlora_code_alpaca_e3.py │ │ │ │ ├── internlm2_chat_7b_qlora_lawyer_e3.py │ │ │ │ ├── internlm2_chat_7b_qlora_oasst1_512_e3.py │ │ │ │ └── internlm2_chat_7b_qlora_oasst1_e3.py │ │ │ ├── internlm_20b/ │ │ │ │ ├── internlm_20b_qlora_alpaca_e3.py │ │ │ │ ├── internlm_20b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── internlm_20b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── internlm_20b_qlora_alpaca_zh_e3.py │ │ │ │ ├── internlm_20b_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── internlm_20b_qlora_code_alpaca_e3.py │ │ │ │ ├── internlm_20b_qlora_colorist_e5.py │ │ │ │ ├── internlm_20b_qlora_lawyer_e3.py │ │ │ │ ├── internlm_20b_qlora_msagent_react_e3_gpu8.py │ │ │ │ ├── internlm_20b_qlora_oasst1_512_e3.py │ │ │ │ ├── internlm_20b_qlora_oasst1_e3.py │ │ │ │ ├── internlm_20b_qlora_open_platypus_e3.py │ │ │ │ └── internlm_20b_qlora_sql_e3.py │ │ │ ├── internlm_7b/ │ │ │ │ ├── internlm_7b_full_alpaca_e3.py │ │ │ │ ├── internlm_7b_full_alpaca_enzh_e3.py │ │ │ │ ├── internlm_7b_full_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── internlm_7b_full_alpaca_zh_e3.py │ │ │ │ ├── internlm_7b_full_intern_repo_dataset_template.py │ │ │ │ ├── internlm_7b_full_oasst1_e3.py │ │ │ │ ├── internlm_7b_qlora_alpaca_e3.py │ │ │ │ ├── internlm_7b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── internlm_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── internlm_7b_qlora_alpaca_zh_e3.py │ │ │ │ ├── internlm_7b_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── internlm_7b_qlora_code_alpaca_e3.py │ │ │ │ ├── internlm_7b_qlora_colorist_e5.py │ │ │ │ ├── internlm_7b_qlora_json_e3.py │ │ │ │ ├── internlm_7b_qlora_lawyer_e3.py │ │ │ │ ├── internlm_7b_qlora_medical_e1.py │ │ │ │ ├── internlm_7b_qlora_moss_sft_all_e1.py │ │ │ │ ├── internlm_7b_qlora_moss_sft_all_e2_gpu8.py │ │ │ │ ├── internlm_7b_qlora_moss_sft_plugins_e1.py │ │ │ │ ├── internlm_7b_qlora_msagent_react_e3_gpu8.py │ │ │ │ ├── internlm_7b_qlora_oasst1_512_e3.py │ │ │ │ ├── internlm_7b_qlora_oasst1_e3.py │ │ │ │ ├── internlm_7b_qlora_oasst1_e3_hf.py │ │ │ │ ├── internlm_7b_qlora_oasst1_mmlu_e3.py │ │ │ │ ├── internlm_7b_qlora_open_platypus_e3.py │ │ │ │ ├── internlm_7b_qlora_openorca_e1.py │ │ │ │ ├── internlm_7b_qlora_sql_e3.py │ │ │ │ └── internlm_7b_qlora_tiny_codes_e1.py │ │ │ ├── internlm_chat_20b/ │ │ │ │ ├── internlm_chat_20b_qlora_alpaca_e3.py │ │ │ │ ├── internlm_chat_20b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── internlm_chat_20b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── internlm_chat_20b_qlora_alpaca_zh_e3.py │ │ │ │ ├── internlm_chat_20b_qlora_code_alpaca_e3.py │ │ │ │ ├── internlm_chat_20b_qlora_lawyer_e3.py │ │ │ │ ├── internlm_chat_20b_qlora_oasst1_512_e3.py │ │ │ │ ├── internlm_chat_20b_qlora_oasst1_e3.py │ │ │ │ └── internlm_chat_20b_qlora_open_platypus_e3.py │ │ │ └── internlm_chat_7b/ │ │ │ ├── internlm_chat_7b_qlora_alpaca_e3.py │ │ │ ├── internlm_chat_7b_qlora_alpaca_enzh_e3.py │ │ │ ├── internlm_chat_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── internlm_chat_7b_qlora_alpaca_zh_e3.py │ │ │ ├── internlm_chat_7b_qlora_arxiv_gentitle_e3.py │ │ │ ├── internlm_chat_7b_qlora_code_alpaca_e3.py │ │ │ ├── internlm_chat_7b_qlora_colorist_e5.py │ │ │ ├── internlm_chat_7b_qlora_lawyer_e3.py │ │ │ ├── internlm_chat_7b_qlora_medical_e1.py │ │ │ ├── internlm_chat_7b_qlora_oasst1_512_e3.py │ │ │ ├── internlm_chat_7b_qlora_oasst1_e3.py │ │ │ ├── internlm_chat_7b_qlora_open_platypus_e3.py │ │ │ ├── internlm_chat_7b_qlora_openorca_e1.py │ │ │ ├── internlm_chat_7b_qlora_sql_e3.py │ │ │ └── internlm_chat_7b_qlora_tiny_codes_e1.py │ │ ├── llama/ │ │ │ ├── llama2_70b/ │ │ │ │ ├── llama2_70b_full_wizardlm_e1.py │ │ │ │ ├── llama2_70b_int8_lora_open_platypus_e1.py │ │ │ │ ├── llama2_70b_int8_lora_open_platypus_e1_hf.py │ │ │ │ ├── llama2_70b_qlora_open_platypus_e1.py │ │ │ │ └── llama2_70b_qlora_open_platypus_e1_hf.py │ │ │ ├── llama2_7b/ │ │ │ │ ├── llama2_7b_full_pgbooks_400iters_sp1.py │ │ │ │ ├── llama2_7b_full_pgbooks_400iters_sp4.py │ │ │ │ ├── llama2_7b_full_wizardlm_e1.py │ │ │ │ ├── llama2_7b_qlora_alpaca_e3.py │ │ │ │ ├── llama2_7b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── llama2_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── llama2_7b_qlora_alpaca_zh_e3.py │ │ │ │ ├── llama2_7b_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── llama2_7b_qlora_code_alpaca_e3.py │ │ │ │ ├── llama2_7b_qlora_colorist_e5.py │ │ │ │ ├── llama2_7b_qlora_lawyer_e3.py │ │ │ │ ├── llama2_7b_qlora_medical_e1.py │ │ │ │ ├── llama2_7b_qlora_moss_sft_all_e1.py │ │ │ │ ├── llama2_7b_qlora_moss_sft_all_e2_gpu8.py │ │ │ │ ├── llama2_7b_qlora_moss_sft_plugins_e1.py │ │ │ │ ├── llama2_7b_qlora_msagent_react_e3_gpu8.py │ │ │ │ ├── llama2_7b_qlora_oasst1_512_e3.py │ │ │ │ ├── llama2_7b_qlora_oasst1_e3.py │ │ │ │ ├── llama2_7b_qlora_open_platypus_e3.py │ │ │ │ ├── llama2_7b_qlora_openorca_e1.py │ │ │ │ ├── llama2_7b_qlora_sql_e3.py │ │ │ │ └── llama2_7b_qlora_tiny_codes_e1.py │ │ │ ├── llama2_7b_chat/ │ │ │ │ ├── llama2_7b_chat_qlora_alpaca_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_alpaca_enzh_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_alpaca_zh_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_code_alpaca_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_colorist_e5.py │ │ │ │ ├── llama2_7b_chat_qlora_lawyer_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_medical_e1.py │ │ │ │ ├── llama2_7b_chat_qlora_oasst1_512_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_oasst1_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_open_platypus_e3.py │ │ │ │ ├── llama2_7b_chat_qlora_openorca_e1.py │ │ │ │ ├── llama2_7b_chat_qlora_sql_e3.py │ │ │ │ └── llama2_7b_chat_qlora_tiny_codes_e1.py │ │ │ ├── llama3_70b_instruct/ │ │ │ │ └── llama3_70b_instruct_qlora_alpaca_e3_2k_gpu8.py │ │ │ ├── llama3_8b/ │ │ │ │ ├── README.md │ │ │ │ └── llama3_8b_full_alpaca_e3.py │ │ │ ├── llama3_8b_instruct/ │ │ │ │ ├── llama3_8b_instruct_full_alpaca_e3.py │ │ │ │ └── llama3_8b_instruct_qlora_alpaca_e3.py │ │ │ └── llama_7b/ │ │ │ ├── llama_7b_qlora_alpaca_e3.py │ │ │ ├── llama_7b_qlora_alpaca_enzh_e3.py │ │ │ ├── llama_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── llama_7b_qlora_alpaca_zh_e3.py │ │ │ ├── llama_7b_qlora_arxiv_gentitle_e3.py │ │ │ ├── llama_7b_qlora_code_alpaca_e3.py │ │ │ ├── llama_7b_qlora_colorist_e5.py │ │ │ ├── llama_7b_qlora_lawyer_e3.py │ │ │ ├── llama_7b_qlora_medical_e1.py │ │ │ ├── llama_7b_qlora_moss_sft_all_e1.py │ │ │ ├── llama_7b_qlora_moss_sft_all_e2_gpu8.py │ │ │ ├── llama_7b_qlora_moss_sft_plugins_e1.py │ │ │ ├── llama_7b_qlora_oasst1_512_e3.py │ │ │ ├── llama_7b_qlora_oasst1_e3.py │ │ │ ├── llama_7b_qlora_open_platypus_e3.py │ │ │ ├── llama_7b_qlora_openorca_e1.py │ │ │ ├── llama_7b_qlora_sql_e3.py │ │ │ └── llama_7b_qlora_tiny_codes_e1.py │ │ ├── llama_speed_benchmark/ │ │ │ ├── llama2_70b/ │ │ │ │ ├── llama2_70b_full_alpaca_enzh_128k_sp8.py │ │ │ │ ├── llama2_70b_full_alpaca_enzh_256k_sp16.py │ │ │ │ ├── llama2_70b_full_alpaca_enzh_32k_sp4.py │ │ │ │ └── llama2_70b_full_alpaca_enzh_8k_sp1.py │ │ │ ├── llama2_7b/ │ │ │ │ ├── llama2_7b_full_alpaca_enzh_128k_sp8.py │ │ │ │ ├── llama2_7b_full_alpaca_enzh_1M_sp16.py │ │ │ │ ├── llama2_7b_full_alpaca_enzh_256k_sp8.py │ │ │ │ ├── llama2_7b_full_alpaca_enzh_32k_sp1.py │ │ │ │ └── llama2_7b_full_alpaca_enzh_8k_sp1.py │ │ │ └── yi_34b/ │ │ │ ├── yi_34b_200k_full_alpaca_enzh_128k_sp8.py │ │ │ ├── yi_34b_200k_full_alpaca_enzh_256k_sp8.py │ │ │ ├── yi_34b_200k_full_alpaca_enzh_32k_sp2.py │ │ │ └── yi_34b_200k_full_alpaca_enzh_8k_sp1.py │ │ ├── llava/ │ │ │ ├── README.md │ │ │ ├── README_zh-CN.md │ │ │ ├── internlm2_chat_1_8b_clip_vit_large_p14_336/ │ │ │ │ ├── finetune/ │ │ │ │ │ └── llava_internlm2_chat_1_8b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ │ └── pretrain/ │ │ │ │ └── llava_internlm2_chat_1_8b_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ ├── internlm2_chat_20b_clip_vit_large_p14_336/ │ │ │ │ ├── finetune/ │ │ │ │ │ ├── llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_finetune.py │ │ │ │ │ └── llava_internlm2_chat_20b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ │ └── pretrain/ │ │ │ │ └── llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ ├── internlm2_chat_7b_clip_vit_large_p14_336/ │ │ │ │ ├── finetune/ │ │ │ │ │ ├── llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_finetune.py │ │ │ │ │ └── llava_internlm2_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ │ └── pretrain/ │ │ │ │ └── llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ ├── internlm_chat_7b_clip_vit_large_p14_336/ │ │ │ │ ├── finetune/ │ │ │ │ │ └── llava_internlm_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ │ └── pretrain/ │ │ │ │ └── llava_internlm_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ ├── llama3_70b_instruct_clip_vit_large_p14_336/ │ │ │ │ └── pretrain/ │ │ │ │ └── llava_llama3_70b_instruct_quant_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ ├── llama3_8b_instruct_clip_vit_large_p14_336/ │ │ │ │ ├── README.md │ │ │ │ ├── convert_xtuner_weights_to_hf.py │ │ │ │ ├── convert_xtuner_weights_to_llava.py │ │ │ │ ├── finetune/ │ │ │ │ │ ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_e1_gpu8_finetune.py │ │ │ │ │ ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ │ │ ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_lora_e1_gpu8_internvl_finetune.py │ │ │ │ │ └── llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_e1_gpu1_finetune.py │ │ │ │ └── pretrain/ │ │ │ │ ├── llava_llama3_8b_instruct_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ │ ├── llava_llama3_8b_instruct_clip_vit_large_p14_336_e1_gpu8_sharegpt4v_pretrain.py │ │ │ │ └── llava_llama3_8b_instruct_quant_clip_vit_large_p14_336_e1_gpu1_pretrain.py │ │ │ ├── official/ │ │ │ │ ├── llava_v15_13b/ │ │ │ │ │ ├── llava_v15_13b_finetune.py │ │ │ │ │ ├── llava_v15_13b_finetune_lora.py │ │ │ │ │ └── llava_v15_13b_pretrain.py │ │ │ │ └── llava_v15_7b/ │ │ │ │ ├── llava_v15_7b_finetune.py │ │ │ │ ├── llava_v15_7b_finetune_lora.py │ │ │ │ └── llava_v15_7b_pretrain.py │ │ │ ├── phi3_mini_4k_instruct_clip_vit_large_p14_336/ │ │ │ │ ├── README.md │ │ │ │ ├── convert_phi_to_llama.py │ │ │ │ ├── convert_xtuner_weights_to_hf.py │ │ │ │ ├── convert_xtuner_weights_to_llava.py │ │ │ │ ├── finetune/ │ │ │ │ │ ├── llava_phi3_mini_4k_instruct_full_clip_vit_large_p14_336_e1_gpu8_finetune.py │ │ │ │ │ └── llava_phi3_mini_4k_instruct_full_clip_vit_large_p14_336_full_e2_gpu8_internvl_finetune.py │ │ │ │ └── pretrain/ │ │ │ │ ├── llava_phi3_mini_4k_instruct_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ │ └── llava_phi3_mini_4k_instruct_clip_vit_large_p14_336_e1_gpu8_sharegpt4v_pretrain.py │ │ │ ├── vicuna_13b_v15_clip_vit_large_p14_336/ │ │ │ │ ├── finetune/ │ │ │ │ │ └── llava_vicuna_13b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ │ └── pretrain/ │ │ │ │ └── llava_vicuna_13b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ └── vicuna_7b_v15_clip_vit_large_p14_336/ │ │ │ ├── finetune/ │ │ │ │ ├── llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ │ └── llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune_refcoco.py │ │ │ └── pretrain/ │ │ │ └── llava_vicuna_7b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ ├── mistral/ │ │ │ ├── mistral_7b_full_finetune_custom_dataset_e1.py │ │ │ ├── mistral_7b_qlora_skypile_pretrain_e1.py │ │ │ ├── mistral_7b_w_tokenized_dataset.py │ │ │ └── mistral_7b_w_untokenized_dataset.py │ │ ├── mixtral/ │ │ │ ├── README.md │ │ │ ├── mixtral_8x7b/ │ │ │ │ ├── mixtral_8x7b_full_oasst1_e3.py │ │ │ │ └── mixtral_8x7b_qlora_oasst1_e3.py │ │ │ └── mixtral_8x7b_instruct/ │ │ │ ├── mixtral_8x7b_instruct_full_oasst1_e3.py │ │ │ └── mixtral_8x7b_instruct_qlora_oasst1_e3.py │ │ ├── orpo/ │ │ │ ├── internlm/ │ │ │ │ ├── internlm2_chat_1_8b_orpo_full.py │ │ │ │ ├── internlm2_chat_1_8b_orpo_full_varlenattn.py │ │ │ │ ├── internlm2_chat_1_8b_orpo_full_varlenattn_jsonl_dataset.py │ │ │ │ └── internlm2_chat_7b_orpo_qlora_varlenattn_ultrafeedback_e5.py │ │ │ └── llama/ │ │ │ └── llama3_8b_instruct_orpo_qlora_varlenattn_ultrafeedback_e5.py │ │ ├── phi/ │ │ │ └── phi3/ │ │ │ ├── phi3_mini_128k_instruct_full_alpaca_e3.py │ │ │ ├── phi3_mini_128k_instruct_qlora_alpaca_e3.py │ │ │ ├── phi3_mini_4k_instruct_full_alpaca_e3.py │ │ │ └── phi3_mini_4k_instruct_qlora_alpaca_e3.py │ │ ├── qwen/ │ │ │ ├── qwen1/ │ │ │ │ ├── qwen_1_8b/ │ │ │ │ │ ├── qwen_1_8b_qlora_alpaca_e3.py │ │ │ │ │ ├── qwen_1_8b_qlora_alpaca_enzh_e3.py │ │ │ │ │ ├── qwen_1_8b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ │ ├── qwen_1_8b_qlora_alpaca_zh_e3.py │ │ │ │ │ └── qwen_1_8b_qlora_code_alpaca_e3.py │ │ │ │ ├── qwen_1_8b_chat/ │ │ │ │ │ ├── qwen_1_8b_chat_qlora_alpaca_e3.py │ │ │ │ │ ├── qwen_1_8b_chat_qlora_alpaca_enzh_e3.py │ │ │ │ │ ├── qwen_1_8b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ │ ├── qwen_1_8b_chat_qlora_alpaca_zh_e3.py │ │ │ │ │ └── qwen_1_8b_chat_qlora_code_alpaca_e3.py │ │ │ │ ├── qwen_72b/ │ │ │ │ │ ├── qwen_72b_qlora_alpaca_e3.py │ │ │ │ │ ├── qwen_72b_qlora_alpaca_enzh_e3.py │ │ │ │ │ ├── qwen_72b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ │ ├── qwen_72b_qlora_alpaca_zh_e3.py │ │ │ │ │ └── qwen_72b_qlora_code_alpaca_e3.py │ │ │ │ ├── qwen_7b/ │ │ │ │ │ ├── qwen_7b_qlora_alpaca_e3.py │ │ │ │ │ ├── qwen_7b_qlora_alpaca_enzh_e3.py │ │ │ │ │ ├── qwen_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ │ ├── qwen_7b_qlora_alpaca_zh_e3.py │ │ │ │ │ ├── qwen_7b_qlora_arxiv_gentitle_e3.py │ │ │ │ │ ├── qwen_7b_qlora_code_alpaca_e3.py │ │ │ │ │ ├── qwen_7b_qlora_colorist_e5.py │ │ │ │ │ ├── qwen_7b_qlora_lawyer_e3.py │ │ │ │ │ ├── qwen_7b_qlora_medical_e1.py │ │ │ │ │ ├── qwen_7b_qlora_moss_sft_all_e1.py │ │ │ │ │ ├── qwen_7b_qlora_moss_sft_all_e2_gpu8.py │ │ │ │ │ ├── qwen_7b_qlora_moss_sft_plugins_e1.py │ │ │ │ │ ├── qwen_7b_qlora_oasst1_512_e3.py │ │ │ │ │ ├── qwen_7b_qlora_oasst1_e3.py │ │ │ │ │ ├── qwen_7b_qlora_open_platypus_e3.py │ │ │ │ │ ├── qwen_7b_qlora_openorca_e1.py │ │ │ │ │ ├── qwen_7b_qlora_sql_e3.py │ │ │ │ │ └── qwen_7b_qlora_tiny_codes_e1.py │ │ │ │ └── qwen_7b_chat/ │ │ │ │ ├── qwen_7b_chat_qlora_alpaca_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_alpaca_enzh_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_alpaca_zh_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_code_alpaca_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_colorist_e5.py │ │ │ │ ├── qwen_7b_chat_qlora_lawyer_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_medical_e1.py │ │ │ │ ├── qwen_7b_chat_qlora_oasst1_512_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_oasst1_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_open_platypus_e3.py │ │ │ │ ├── qwen_7b_chat_qlora_openorca_e1.py │ │ │ │ ├── qwen_7b_chat_qlora_sql_e3.py │ │ │ │ └── qwen_7b_chat_qlora_tiny_codes_e1.py │ │ │ └── qwen1_5/ │ │ │ ├── qwen1_5_0_5b/ │ │ │ │ ├── qwen1_5_0_5b_full_alpaca_e3.py │ │ │ │ └── qwen1_5_0_5b_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_0_5b_chat/ │ │ │ │ ├── qwen1_5_0_5b_chat_full_alpaca_e3.py │ │ │ │ └── qwen1_5_0_5b_chat_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_110b/ │ │ │ │ ├── qwen1_5_110b_full_alpaca_e3.py │ │ │ │ └── qwen1_5_110b_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_110b_chat/ │ │ │ │ ├── README.md │ │ │ │ ├── qwen1_5_110b_chat_full_alpaca_e3.py │ │ │ │ ├── qwen1_5_110b_chat_qlora_alpaca_e3.py │ │ │ │ └── qwen1_5_110b_chat_qlora_alpaca_e3_16k_2gpus.py │ │ │ ├── qwen1_5_14b/ │ │ │ │ ├── qwen1_5_14b_full_alpaca_e3.py │ │ │ │ └── qwen1_5_14b_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_14b_chat/ │ │ │ │ ├── qwen1_5_14b_chat_full_alpaca_e3.py │ │ │ │ └── qwen1_5_14b_chat_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_1_8b/ │ │ │ │ ├── qwen1_5_1_8b_full_alpaca_e3.py │ │ │ │ └── qwen1_5_1_8b_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_1_8b_chat/ │ │ │ │ ├── qwen1_5_1_8b_chat_full_alpaca_e3.py │ │ │ │ └── qwen1_5_1_8b_chat_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_4b/ │ │ │ │ ├── qwen1_5_4b_full_alpaca_e3.py │ │ │ │ └── qwen1_5_4b_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_4b_chat/ │ │ │ │ ├── qwen1_5_4b_chat_full_alpaca_e3.py │ │ │ │ └── qwen1_5_4b_chat_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_72b/ │ │ │ │ ├── qwen1_5_72b_full_alpaca_e3.py │ │ │ │ └── qwen1_5_72b_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_72b_chat/ │ │ │ │ ├── qwen1_5_72b_chat_full_alpaca_e3.py │ │ │ │ └── qwen1_5_72b_chat_qlora_alpaca_e3.py │ │ │ ├── qwen1_5_7b/ │ │ │ │ ├── qwen1_5_7b_full_alpaca_e3.py │ │ │ │ └── qwen1_5_7b_qlora_alpaca_e3.py │ │ │ └── qwen1_5_7b_chat/ │ │ │ ├── qwen1_5_7b_chat_full_alpaca_e3.py │ │ │ └── qwen1_5_7b_chat_qlora_alpaca_e3.py │ │ ├── qwen_moe/ │ │ │ └── qwen1_5/ │ │ │ └── qwen1_5_moe_a2_7_b_chat/ │ │ │ └── qwen1_5_moe_a2_7_b_chat_full_alpaca_e3.py │ │ ├── reward_model/ │ │ │ ├── internlm/ │ │ │ │ ├── internlm2_chat_1_8b_reward_full_ultrafeedback.py │ │ │ │ ├── internlm2_chat_1_8b_reward_full_varlenattn_jsonl_dataset.py │ │ │ │ ├── internlm2_chat_1_8b_reward_full_varlenattn_ultrafeedback.py │ │ │ │ └── internlm2_chat_1_8b_reward_qlora_varlenattn_ultrafeedback.py │ │ │ └── llama/ │ │ │ └── llama3_8b_instruct_reward_full_varlenattn_ultrafeedback.py │ │ ├── starcoder/ │ │ │ └── starcoder_qlora_stack_exchange_example.py │ │ ├── yi/ │ │ │ ├── yi_34b/ │ │ │ │ └── yi_34b_qlora_alpaca_enzh_e3.py │ │ │ └── yi_6b/ │ │ │ └── yi_6b_qlora_alpaca_enzh_e3.py │ │ └── zephyr/ │ │ └── zephyr_7b_beta_qlora_alpaca_e3.py │ ├── dataset/ │ │ ├── __init__.py │ │ ├── collate_fns/ │ │ │ ├── __init__.py │ │ │ ├── default_collate_fn.py │ │ │ ├── mmlu_collate_fn.py │ │ │ └── preference_collate_fn.py │ │ ├── concat_dataset.py │ │ ├── huggingface.py │ │ ├── intern_repo.py │ │ ├── json_dataset.py │ │ ├── llava.py │ │ ├── map_fns/ │ │ │ ├── __init__.py │ │ │ ├── dataset_map_fns/ │ │ │ │ ├── __init__.py │ │ │ │ ├── alpaca_map_fn.py │ │ │ │ ├── alpaca_zh_map_fn.py │ │ │ │ ├── arxiv_map_fn.py │ │ │ │ ├── code_alpaca_map_fn.py │ │ │ │ ├── colors_map_fn.py │ │ │ │ ├── crime_kg_assitant_map_fn.py │ │ │ │ ├── default_map_fn.py │ │ │ │ ├── law_reference_map_fn.py │ │ │ │ ├── llava_map_fn.py │ │ │ │ ├── medical_map_fn.py │ │ │ │ ├── msagent_map_fn.py │ │ │ │ ├── oasst1_map_fn.py │ │ │ │ ├── openai_map_fn.py │ │ │ │ ├── openorca_map_fn.py │ │ │ │ ├── pretrain_map_fn.py │ │ │ │ ├── sql_map_fn.py │ │ │ │ ├── stack_exchange_map_fn.py │ │ │ │ ├── tiny_codes_map_fn.py │ │ │ │ └── wizardlm_map_fn.py │ │ │ └── template_map_fn.py │ │ ├── modelscope.py │ │ ├── moss_sft.py │ │ ├── preference_dataset.py │ │ ├── refcoco_json.py │ │ ├── samplers/ │ │ │ ├── __init__.py │ │ │ ├── intern_repo.py │ │ │ └── length_grouped.py │ │ └── utils.py │ ├── engine/ │ │ ├── __init__.py │ │ ├── _strategy/ │ │ │ ├── __init__.py │ │ │ └── deepspeed.py │ │ ├── hooks/ │ │ │ ├── __init__.py │ │ │ ├── dataset_info_hook.py │ │ │ ├── evaluate_chat_hook.py │ │ │ ├── hf_checkpoint_hook.py │ │ │ ├── throughput_hook.py │ │ │ └── varlen_attn_args_to_messagehub_hook.py │ │ └── runner/ │ │ ├── __init__.py │ │ └── loops.py │ ├── entry_point.py │ ├── evaluation/ │ │ ├── __init__.py │ │ └── metrics/ │ │ ├── __init__.py │ │ ├── mmlu_metric.py │ │ └── reward_metric.py │ ├── model/ │ │ ├── __init__.py │ │ ├── dpo.py │ │ ├── llava.py │ │ ├── modules/ │ │ │ ├── __init__.py │ │ │ ├── dispatch/ │ │ │ │ ├── __init__.py │ │ │ │ ├── attention.py │ │ │ │ ├── baichuan.py │ │ │ │ ├── cohere.py │ │ │ │ ├── deepseek_v2.py │ │ │ │ ├── internlm.py │ │ │ │ ├── internlm2.py │ │ │ │ ├── llama.py │ │ │ │ ├── mistral.py │ │ │ │ ├── phi3.py │ │ │ │ ├── qwen2.py │ │ │ │ ├── triton_kernels/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── layer_norm.py │ │ │ │ │ ├── rms_norm.py │ │ │ │ │ └── rotary.py │ │ │ │ ├── utils.py │ │ │ │ └── yi.py │ │ │ └── projector/ │ │ │ ├── __init__.py │ │ │ ├── configuration_projector.py │ │ │ └── modeling_projector.py │ │ ├── orpo.py │ │ ├── reward.py │ │ ├── sft.py │ │ ├── transformers_models/ │ │ │ ├── __init__.py │ │ │ ├── deepseek_v2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_deepseek.py │ │ │ │ ├── modeling_deepseek.py │ │ │ │ └── tokenization_deepseek_fast.py │ │ │ └── mixtral/ │ │ │ ├── __init__.py │ │ │ ├── configuration_mixtral.py │ │ │ └── modeling_mixtral.py │ │ └── utils.py │ ├── parallel/ │ │ ├── __init__.py │ │ └── sequence/ │ │ ├── __init__.py │ │ ├── attention.py │ │ ├── comm.py │ │ ├── data_collate.py │ │ ├── reduce_loss.py │ │ ├── sampler.py │ │ └── setup_distributed.py │ ├── registry.py │ ├── tools/ │ │ ├── chat.py │ │ ├── check_custom_dataset.py │ │ ├── copy_cfg.py │ │ ├── data_preprocess/ │ │ │ ├── arxiv.py │ │ │ └── convert_refcoco.py │ │ ├── eval_refcoco.py │ │ ├── get_data_order.py │ │ ├── list_cfg.py │ │ ├── list_dataset_format.py │ │ ├── log_dataset.py │ │ ├── mmbench.py │ │ ├── model_converters/ │ │ │ ├── merge.py │ │ │ ├── modeling_internlm2_reward/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_internlm2.py │ │ │ │ └── modeling_internlm2.py │ │ │ ├── pth_to_hf.py │ │ │ └── split.py │ │ ├── plugins/ │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── calculate.py │ │ │ ├── search.py │ │ │ └── solve.py │ │ ├── process_untokenized_datasets.py │ │ ├── process_untokenized_datasets_legacy.py │ │ ├── process_untokenized_llava_data.py │ │ ├── test.py │ │ ├── tokenize_ftdp_datasets.py │ │ ├── train.py │ │ └── utils.py │ ├── utils/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── fileio.py │ │ ├── handle_moe_load_and_save.py │ │ ├── stop_criteria.py │ │ ├── templates.py │ │ └── zero_to_any_dtype.py │ └── version.py └── xtuner-train_internvideo2_5/ ├── .gitignore ├── .owners.yml ├── .pre-commit-config-zh-cn.yaml ├── .pre-commit-config.yaml ├── LICENSE ├── MANIFEST.in ├── README.md ├── data/ │ ├── annotaions/ │ │ └── ft_data_example.jsonl │ └── diy_ft_data.json ├── ft_internvideo_2_5.sh ├── ft_internvideo_2_5_datapacking.sh ├── requirements/ │ ├── deepspeed.txt │ ├── docs.txt │ ├── modelscope.txt │ └── runtime.txt ├── requirements.txt ├── setup.cfg ├── setup.py ├── unify_internvl2_train_r16.py └── xtuner/ ├── __init__.py ├── _lite/ │ ├── __init__.py │ ├── accelerate/ │ │ ├── __init__.py │ │ ├── dispatches/ │ │ │ ├── __init__.py │ │ │ ├── _attention.py │ │ │ ├── _fused/ │ │ │ │ ├── __init__.py │ │ │ │ ├── layer_norm.py │ │ │ │ ├── rms_norm.py │ │ │ │ └── rotary.py │ │ │ ├── clip.py │ │ │ ├── internlm2.py │ │ │ ├── internvl2.py │ │ │ ├── llama3.py │ │ │ ├── new.py │ │ │ ├── phi3.py │ │ │ ├── qwen2.py │ │ │ └── qwen_vl2.py │ │ ├── fsdp/ │ │ │ ├── __init__.py │ │ │ ├── checkpointing.py │ │ │ ├── clip_grad.py │ │ │ ├── lazy.py │ │ │ ├── precision.py │ │ │ └── wrap.py │ │ ├── generate.py │ │ ├── lora.py │ │ └── packed.py │ ├── auto.py │ ├── chat/ │ │ ├── __init__.py │ │ ├── backends/ │ │ │ └── __init__.py │ │ ├── messages/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ └── chat.py │ │ └── templates/ │ │ ├── __init__.py │ │ ├── chat.py │ │ └── hybrid.py │ ├── checkpoint.py │ ├── datasets/ │ │ ├── __init__.py │ │ ├── dataset_fn.py │ │ ├── format.py │ │ ├── llava.py │ │ ├── load.py │ │ ├── load_new.py │ │ ├── text.py │ │ └── tokenize.py │ ├── internvl/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── conversation.py │ │ ├── dataset.py │ │ ├── new_dataset.py │ │ ├── v1_5/ │ │ │ ├── configuration_intern_vit.py │ │ │ ├── configuration_internvl_chat.py │ │ │ ├── configuration_phi3.py │ │ │ ├── conversation.py │ │ │ ├── modeling_intern_vit.py │ │ │ ├── modeling_internvl_chat.py │ │ │ └── modeling_phi3.py │ │ └── video_utils.py │ ├── modelings/ │ │ ├── __init__.py │ │ ├── internlm2/ │ │ │ ├── __init__.py │ │ │ ├── configuration_internlm2.py │ │ │ └── modeling_internlm2.py │ │ └── model_fn.py │ ├── parallel/ │ │ ├── __init__.py │ │ ├── comm.py │ │ ├── logger.py │ │ ├── new_setup.py │ │ ├── plans/ │ │ │ └── internlm2.py │ │ ├── sampler.py │ │ ├── sequence/ │ │ │ ├── __init__.py │ │ │ ├── attention.py │ │ │ ├── data_collate.py │ │ │ ├── ops.py │ │ │ └── reduce_loss.py │ │ └── setup.py │ └── yunchang/ │ ├── __init__.py │ ├── comm/ │ │ ├── __init__.py │ │ ├── all_to_all.py │ │ └── extract_local.py │ ├── globals.py │ ├── hybrid/ │ │ ├── __init__.py │ │ ├── async_attn_layer.py │ │ ├── attn_layer.py │ │ └── utils.py │ ├── ring/ │ │ ├── __init__.py │ │ ├── llama3_flash_attn_varlen.py │ │ ├── ring_flash_attn.py │ │ ├── ring_flash_attn_varlen.py │ │ ├── stripe_flash_attn.py │ │ ├── triton_utils.py │ │ ├── utils.py │ │ ├── zigzag_ring_flash_attn.py │ │ └── zigzag_ring_flash_attn_varlen.py │ └── ulysses/ │ ├── __init__.py │ └── attn_layer.py ├── apis/ │ ├── __init__.py │ ├── datasets/ │ │ ├── __init__.py │ │ ├── alpaca.py │ │ ├── arxiv.py │ │ ├── code_alpaca.py │ │ ├── colorist.py │ │ ├── lawyer.py │ │ ├── medical.py │ │ ├── moss_003_sft.py │ │ ├── oasst1.py │ │ ├── open_orca.py │ │ ├── sql.py │ │ ├── tiny_codes.py │ │ └── wizardlm.py │ ├── model.py │ └── training_args.py ├── configs/ │ ├── __init__.py │ ├── baichuan/ │ │ ├── baichuan2_13b_base/ │ │ │ ├── baichuan2_13b_base_qlora_alpaca_e3.py │ │ │ ├── baichuan2_13b_base_qlora_alpaca_enzh_e3.py │ │ │ ├── baichuan2_13b_base_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── baichuan2_13b_base_qlora_alpaca_zh_e3.py │ │ │ ├── baichuan2_13b_base_qlora_arxiv_gentitle_e3.py │ │ │ ├── baichuan2_13b_base_qlora_code_alpaca_e3.py │ │ │ ├── baichuan2_13b_base_qlora_colorist_e5.py │ │ │ ├── baichuan2_13b_base_qlora_lawyer_e3.py │ │ │ ├── baichuan2_13b_base_qlora_oasst1_512_e3.py │ │ │ ├── baichuan2_13b_base_qlora_oasst1_e3.py │ │ │ ├── baichuan2_13b_base_qlora_open_platypus_e3.py │ │ │ └── baichuan2_13b_base_qlora_sql_e3.py │ │ ├── baichuan2_13b_chat/ │ │ │ ├── baichuan2_13b_chat_qlora_alpaca_e3.py │ │ │ ├── baichuan2_13b_chat_qlora_alpaca_enzh_e3.py │ │ │ ├── baichuan2_13b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── baichuan2_13b_chat_qlora_alpaca_zh_e3.py │ │ │ ├── baichuan2_13b_chat_qlora_code_alpaca_e3.py │ │ │ ├── baichuan2_13b_chat_qlora_lawyer_e3.py │ │ │ ├── baichuan2_13b_chat_qlora_oasst1_512_e3.py │ │ │ ├── baichuan2_13b_chat_qlora_oasst1_e3.py │ │ │ └── baichuan2_13b_chat_qlora_open_platypus_e3.py │ │ ├── baichuan2_7b_base/ │ │ │ ├── baichuan2_7b_base_qlora_alpaca_e3.py │ │ │ ├── baichuan2_7b_base_qlora_alpaca_enzh_e3.py │ │ │ ├── baichuan2_7b_base_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── baichuan2_7b_base_qlora_alpaca_zh_e3.py │ │ │ ├── baichuan2_7b_base_qlora_arxiv_gentitle_e3.py │ │ │ ├── baichuan2_7b_base_qlora_code_alpaca_e3.py │ │ │ ├── baichuan2_7b_base_qlora_colorist_e5.py │ │ │ ├── baichuan2_7b_base_qlora_lawyer_e3.py │ │ │ ├── baichuan2_7b_base_qlora_oasst1_512_e3.py │ │ │ ├── baichuan2_7b_base_qlora_oasst1_e3.py │ │ │ ├── baichuan2_7b_base_qlora_open_platypus_e3.py │ │ │ └── baichuan2_7b_base_qlora_sql_e3.py │ │ ├── baichuan2_7b_chat/ │ │ │ ├── baichuan2_7b_chat_qlora_alpaca_e3.py │ │ │ ├── baichuan2_7b_chat_qlora_alpaca_enzh_e3.py │ │ │ ├── baichuan2_7b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── baichuan2_7b_chat_qlora_alpaca_zh_e3.py │ │ │ ├── baichuan2_7b_chat_qlora_code_alpaca_e3.py │ │ │ ├── baichuan2_7b_chat_qlora_lawyer_e3.py │ │ │ ├── baichuan2_7b_chat_qlora_oasst1_512_e3.py │ │ │ ├── baichuan2_7b_chat_qlora_oasst1_e3.py │ │ │ └── baichuan2_7b_chat_qlora_open_platypus_e3.py │ │ ├── baichuan_13b_base/ │ │ │ ├── baichuan_13b_base_qlora_alpaca_e3.py │ │ │ ├── baichuan_13b_base_qlora_alpaca_enzh_e3.py │ │ │ ├── baichuan_13b_base_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── baichuan_13b_base_qlora_alpaca_zh_e3.py │ │ │ ├── baichuan_13b_base_qlora_arxiv_gentitle_e3.py │ │ │ ├── baichuan_13b_base_qlora_code_alpaca_e3.py │ │ │ ├── baichuan_13b_base_qlora_colorist_e5.py │ │ │ ├── baichuan_13b_base_qlora_lawyer_e3.py │ │ │ ├── baichuan_13b_base_qlora_medical_e1.py │ │ │ ├── baichuan_13b_base_qlora_moss_sft_all_e1.py │ │ │ ├── baichuan_13b_base_qlora_moss_sft_all_e2_gpu8.py │ │ │ ├── baichuan_13b_base_qlora_moss_sft_plugins_e1.py │ │ │ ├── baichuan_13b_base_qlora_oasst1_512_e3.py │ │ │ ├── baichuan_13b_base_qlora_oasst1_e3.py │ │ │ ├── baichuan_13b_base_qlora_open_platypus_e3.py │ │ │ ├── baichuan_13b_base_qlora_openorca_e1.py │ │ │ ├── baichuan_13b_base_qlora_sql_e3.py │ │ │ └── baichuan_13b_base_qlora_tiny_codes_e1.py │ │ ├── baichuan_13b_chat/ │ │ │ ├── baichuan_13b_chat_qlora_alpaca_e3.py │ │ │ ├── baichuan_13b_chat_qlora_alpaca_enzh_e3.py │ │ │ ├── baichuan_13b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── baichuan_13b_chat_qlora_alpaca_zh_e3.py │ │ │ ├── baichuan_13b_chat_qlora_arxiv_gentitle_e3.py │ │ │ ├── baichuan_13b_chat_qlora_code_alpaca_e3.py │ │ │ ├── baichuan_13b_chat_qlora_colorist_e5.py │ │ │ ├── baichuan_13b_chat_qlora_lawyer_e3.py │ │ │ ├── baichuan_13b_chat_qlora_medical_e1.py │ │ │ ├── baichuan_13b_chat_qlora_oasst1_512_e3.py │ │ │ ├── baichuan_13b_chat_qlora_oasst1_e3.py │ │ │ ├── baichuan_13b_chat_qlora_open_platypus_e3.py │ │ │ ├── baichuan_13b_chat_qlora_openorca_e1.py │ │ │ ├── baichuan_13b_chat_qlora_sql_e3.py │ │ │ └── baichuan_13b_chat_qlora_tiny_codes_e1.py │ │ └── baichuan_7b/ │ │ ├── baichuan_7b_qlora_alpaca_e3.py │ │ ├── baichuan_7b_qlora_alpaca_enzh_e3.py │ │ ├── baichuan_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ ├── baichuan_7b_qlora_alpaca_zh_e3.py │ │ ├── baichuan_7b_qlora_arxiv_gentitle_e3.py │ │ ├── baichuan_7b_qlora_code_alpaca_e3.py │ │ ├── baichuan_7b_qlora_colorist_e5.py │ │ ├── baichuan_7b_qlora_lawyer_e3.py │ │ ├── baichuan_7b_qlora_medical_e1.py │ │ ├── baichuan_7b_qlora_moss_sft_all_e1.py │ │ ├── baichuan_7b_qlora_moss_sft_all_e2_gpu8.py │ │ ├── baichuan_7b_qlora_moss_sft_plugins_e1.py │ │ ├── baichuan_7b_qlora_oasst1_512_e3.py │ │ ├── baichuan_7b_qlora_oasst1_e3.py │ │ ├── baichuan_7b_qlora_open_platypus_e3.py │ │ ├── baichuan_7b_qlora_openorca_e1.py │ │ ├── baichuan_7b_qlora_sql_e3.py │ │ └── baichuan_7b_qlora_tiny_codes_e1.py │ ├── chatglm/ │ │ ├── chatglm2_6b/ │ │ │ ├── chatglm2_6b_qlora_alpaca_e3.py │ │ │ ├── chatglm2_6b_qlora_alpaca_enzh_e3.py │ │ │ ├── chatglm2_6b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── chatglm2_6b_qlora_alpaca_zh_e3.py │ │ │ ├── chatglm2_6b_qlora_arxiv_gentitle_e3.py │ │ │ ├── chatglm2_6b_qlora_code_alpaca_e3.py │ │ │ ├── chatglm2_6b_qlora_colorist_e5.py │ │ │ ├── chatglm2_6b_qlora_lawyer_e3.py │ │ │ ├── chatglm2_6b_qlora_medical_e1.py │ │ │ ├── chatglm2_6b_qlora_oasst1_512_e3.py │ │ │ ├── chatglm2_6b_qlora_oasst1_e3.py │ │ │ ├── chatglm2_6b_qlora_open_platypus_e3.py │ │ │ ├── chatglm2_6b_qlora_openorca_e1.py │ │ │ ├── chatglm2_6b_qlora_sql_e3.py │ │ │ └── chatglm2_6b_qlora_tiny_codes_e1.py │ │ ├── chatglm3_6b/ │ │ │ ├── chatglm3_6b_qlora_alpaca_e3.py │ │ │ ├── chatglm3_6b_qlora_alpaca_enzh_e3.py │ │ │ ├── chatglm3_6b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── chatglm3_6b_qlora_alpaca_zh_e3.py │ │ │ ├── chatglm3_6b_qlora_arxiv_gentitle_e3.py │ │ │ ├── chatglm3_6b_qlora_code_alpaca_e3.py │ │ │ ├── chatglm3_6b_qlora_colorist_e5.py │ │ │ ├── chatglm3_6b_qlora_lawyer_e3.py │ │ │ ├── chatglm3_6b_qlora_medical_e1.py │ │ │ ├── chatglm3_6b_qlora_oasst1_512_e3.py │ │ │ ├── chatglm3_6b_qlora_oasst1_e3.py │ │ │ ├── chatglm3_6b_qlora_open_platypus_e3.py │ │ │ ├── chatglm3_6b_qlora_openorca_e1.py │ │ │ ├── chatglm3_6b_qlora_sql_e3.py │ │ │ └── chatglm3_6b_qlora_tiny_codes_e1.py │ │ └── chatglm3_6b_base/ │ │ ├── chatglm3_6b_base_qlora_alpaca_e3.py │ │ ├── chatglm3_6b_base_qlora_alpaca_enzh_e3.py │ │ ├── chatglm3_6b_base_qlora_alpaca_enzh_oasst1_e3.py │ │ ├── chatglm3_6b_base_qlora_alpaca_zh_e3.py │ │ ├── chatglm3_6b_base_qlora_arxiv_gentitle_e3.py │ │ ├── chatglm3_6b_base_qlora_code_alpaca_e3.py │ │ ├── chatglm3_6b_base_qlora_colorist_e5.py │ │ ├── chatglm3_6b_base_qlora_lawyer_e3.py │ │ ├── chatglm3_6b_base_qlora_medical_e1.py │ │ ├── chatglm3_6b_base_qlora_oasst1_512_e3.py │ │ ├── chatglm3_6b_base_qlora_oasst1_e3.py │ │ ├── chatglm3_6b_base_qlora_open_platypus_e3.py │ │ ├── chatglm3_6b_base_qlora_openorca_e1.py │ │ ├── chatglm3_6b_base_qlora_sql_e3.py │ │ └── chatglm3_6b_base_qlora_tiny_codes_e1.py │ ├── cohere/ │ │ ├── README.md │ │ └── cohere_104b/ │ │ └── cohere_100b_128k_sp32.py │ ├── custom_dataset/ │ │ ├── pretrain/ │ │ │ ├── baichuan/ │ │ │ │ ├── baichuan2_13b_base_full_custom_pretrain_e1.py │ │ │ │ └── baichuan2_7b_base_full_custom_pretrain_e1.py │ │ │ ├── chatglm/ │ │ │ │ ├── chatglm2_6b_full_custom_pretrain_e1.py │ │ │ │ └── chatglm3_6b_full_custom_pretrain_e1.py │ │ │ ├── deepseek/ │ │ │ │ └── deepseek_moe_16b_base_full_custom_pretrain_e1.py │ │ │ ├── gemma/ │ │ │ │ ├── gemma_2b_full_custom_pretrain_e1.py │ │ │ │ └── gemma_7b_full_custom_pretrain_e1.py │ │ │ ├── internlm/ │ │ │ │ ├── internlm2_1_8b_full_custom_pretrain_e1.py │ │ │ │ ├── internlm2_20b_full_custom_pretrain_e1.py │ │ │ │ └── internlm2_7b_full_custom_pretrain_e1.py │ │ │ ├── llama/ │ │ │ │ ├── llama2_70b_full_custom_pretrain_e1.py │ │ │ │ └── llama2_7b_full_custom_pretrain_e1.py │ │ │ ├── mistral/ │ │ │ │ └── mistral_7b_full_custom_pretrain_e1.py │ │ │ ├── mixtral/ │ │ │ │ └── mixtral_8x7b_full_custom_pretrain_e1.py │ │ │ ├── qwen/ │ │ │ │ ├── qwen1_5_0_5b_full_custom_pretrain_e1.py │ │ │ │ ├── qwen1_5_14b_full_custom_pretrain_e1.py │ │ │ │ ├── qwen1_5_1_8b_full_custom_pretrain_e1.py │ │ │ │ ├── qwen1_5_4b_full_custom_pretrain_e1.py │ │ │ │ ├── qwen1_5_72b_full_custom_pretrain_e1.py │ │ │ │ ├── qwen1_5_7b_full_custom_pretrain_e1.py │ │ │ │ ├── qwen_1_8b_full_custom_pretrain_e1.py │ │ │ │ ├── qwen_72b_full_custom_pretrain_e1.py │ │ │ │ └── qwen_7b_full_custom_pretrain_e1.py │ │ │ ├── starcoder/ │ │ │ │ └── starcoder_full_custom_pretrain_e1.py │ │ │ ├── yi/ │ │ │ │ ├── yi_34b_full_custom_pretrain_e1.py │ │ │ │ └── yi_6b_full_custom_pretrain_e1.py │ │ │ └── zephyr/ │ │ │ └── zephyr_7b_beta_full_custom_pretrain_e1.py │ │ └── sft/ │ │ ├── baichuan/ │ │ │ ├── baichuan2_13b_chat_qlora_custom_sft_e1.py │ │ │ ├── baichuan2_7b_chat_qlora_custom_sft_e1.py │ │ │ ├── baichuan_13b_chat_qlora_custom_sft_e1.py │ │ │ └── baichuan_7b_qlora_custom_sft_e1.py │ │ ├── chatglm/ │ │ │ ├── chatglm2_6b_qlora_custom_sft_e1.py │ │ │ └── chatglm3_6b_qlora_custom_sft_e1.py │ │ ├── deepseek/ │ │ │ ├── deepseek_moe_16b_chat_qlora_custom_sft_e1.py │ │ │ └── deepseekcoder_6_7b_instruct_qlora_custom_sft_e1.py │ │ ├── gemma/ │ │ │ ├── gemma_2b_it_qlora_custom_sft_e1.py │ │ │ ├── gemma_2b_qlora_custom_sft_e1.py │ │ │ ├── gemma_7b_it_qlora_custom_sft_e1.py │ │ │ └── gemma_7b_qlora_custom_sft_e1.py │ │ ├── internlm/ │ │ │ ├── internlm2_chat_1_8b_qlora_custom_sft_e1.py │ │ │ ├── internlm2_chat_20b_qlora_custom_sft_e1.py │ │ │ └── internlm2_chat_7b_qlora_custom_sft_e1.py │ │ ├── llama/ │ │ │ ├── llama2_70b_qlora_custom_sft_e1.py │ │ │ └── llama2_7b_chat_qlora_custom_sft_e1.py │ │ ├── mistral/ │ │ │ └── mistral_7b_full_finetune_custom_sft_e1.py │ │ ├── mixtral/ │ │ │ └── mixtral_8x7b_instruct_qlora_custom_sft_e1.py │ │ ├── qwen/ │ │ │ ├── qwen1_5_0_5b_chat_qlora_custom_sft_e1.py │ │ │ ├── qwen1_5_14b_chat_qlora_custom_sft_e1.py │ │ │ ├── qwen1_5_1_8b_chat_qlora_custom_sft_e1.py │ │ │ ├── qwen1_5_4b_chat_qlora_custom_sft_e1.py │ │ │ ├── qwen1_5_72b_chat_qlora_custom_sft_e1.py │ │ │ ├── qwen1_5_7b_chat_qlora_custom_sft_e1.py │ │ │ ├── qwen_1_8b_chat_qlora_custom_sft_e1.py │ │ │ ├── qwen_72b_qlora_custom_sft_e1.py │ │ │ └── qwen_7b_chat_qlora_custom_sft_e1.py │ │ ├── starcoder/ │ │ │ └── starcoder_qlora_custom_sft_e1.py │ │ ├── yi/ │ │ │ ├── yi_34b_qlora_custom_sft_e1.py │ │ │ └── yi_6b_qlora_custom_sft_e1.py │ │ └── zephyr/ │ │ └── zephyr_7b_beta_qlora_custom_sft_e1.py │ ├── deepseek/ │ │ ├── README.md │ │ ├── deepseek_coder_6_7b_base/ │ │ │ └── deepseek_coder_6_7b_base_qlora_code_alpaca_e3.py │ │ ├── deepseek_coder_6_7b_instruct/ │ │ │ └── deepseekcoder_6_7b_instruct_qlora_code_alpaca_e3.py │ │ ├── deepseek_moe_16b_base/ │ │ │ ├── deepseek_moe_16b_base_full_oasst1_e3.py │ │ │ └── deepseek_moe_16b_base_qlora_oasst1_e3.py │ │ ├── deepseek_moe_16b_chat/ │ │ │ ├── deepseek_moe_16b_chat_full_oasst1_e3.py │ │ │ └── deepseek_moe_16b_chat_qlora_oasst1_e3.py │ │ ├── deepseek_v2_chat/ │ │ │ └── deepseek_v2_chat_full_alpaca_e3.py │ │ └── deepseek_v2_lite_chat/ │ │ ├── deepseek_v2_lite_chat_full_alpaca_e3.py │ │ └── deepseek_v2_lite_chat_full_alpaca_e3_32k_varlen.py │ ├── deepspeed/ │ │ ├── deepspeed_zero1.json │ │ ├── deepspeed_zero2.json │ │ ├── deepspeed_zero2_offload.json │ │ ├── deepspeed_zero3.json │ │ └── deepspeed_zero3_offload.json │ ├── dpo/ │ │ ├── internlm/ │ │ │ ├── internlm2_chat_1_8b_dpo_full.py │ │ │ ├── internlm2_chat_1_8b_dpo_full_varlenattn.py │ │ │ ├── internlm2_chat_1_8b_dpo_full_varlenattn_jsonl_dataset.py │ │ │ └── internlm2_chat_7b_dpo_qlora_varlenattn.py │ │ └── llama/ │ │ └── llama3_8b_instruct_dpo_qlora_varlenattn.py │ ├── gemma/ │ │ ├── gemma_2b/ │ │ │ ├── gemma_2b_full_alpaca_e3.py │ │ │ └── gemma_2b_qlora_alpaca_e3.py │ │ ├── gemma_2b_it/ │ │ │ ├── gemma_2b_it_full_alpaca_e3.py │ │ │ └── gemma_2b_it_qlora_alpaca_e3.py │ │ ├── gemma_7b/ │ │ │ ├── gemma_7b_full_alpaca_e3.py │ │ │ └── gemma_7b_qlora_alpaca_e3.py │ │ └── gemma_7b_it/ │ │ ├── gemma_7b_it_full_alpaca_e3.py │ │ └── gemma_7b_it_qlora_alpaca_e3.py │ ├── internlm/ │ │ ├── internlm2_1_8b/ │ │ │ ├── internlm2_1_8b_full_alpaca_e3.py │ │ │ └── internlm2_1_8b_qlora_alpaca_e3.py │ │ ├── internlm2_20b/ │ │ │ ├── internlm2_20b_full_finetune_custom_dataset_e1.py │ │ │ ├── internlm2_20b_qlora_alpaca_e3.py │ │ │ ├── internlm2_20b_qlora_arxiv_gentitle_e3.py │ │ │ ├── internlm2_20b_qlora_code_alpaca_e3.py │ │ │ ├── internlm2_20b_qlora_colorist_e5.py │ │ │ ├── internlm2_20b_qlora_lawyer_e3.py │ │ │ ├── internlm2_20b_qlora_msagent_react_e3_gpu8.py │ │ │ ├── internlm2_20b_qlora_oasst1_512_e3.py │ │ │ ├── internlm2_20b_qlora_oasst1_e3.py │ │ │ └── internlm2_20b_qlora_sql_e3.py │ │ ├── internlm2_7b/ │ │ │ ├── internlm2_7b_full_finetune_custom_dataset_e1.py │ │ │ ├── internlm2_7b_full_finetune_custom_dataset_e1_sequence_parallel_4.py │ │ │ ├── internlm2_7b_qlora_alpaca_e3.py │ │ │ ├── internlm2_7b_qlora_arxiv_gentitle_e3.py │ │ │ ├── internlm2_7b_qlora_code_alpaca_e3.py │ │ │ ├── internlm2_7b_qlora_colorist_e5.py │ │ │ ├── internlm2_7b_qlora_json_e3.py │ │ │ ├── internlm2_7b_qlora_lawyer_e3.py │ │ │ ├── internlm2_7b_qlora_msagent_react_e3_gpu8.py │ │ │ ├── internlm2_7b_qlora_oasst1_512_e3.py │ │ │ ├── internlm2_7b_qlora_oasst1_e3.py │ │ │ ├── internlm2_7b_qlora_sql_e3.py │ │ │ ├── internlm2_7b_w_internevo_dataset.py │ │ │ ├── internlm2_7b_w_tokenized_dataset.py │ │ │ └── internlm2_7b_w_untokenized_dataset.py │ │ ├── internlm2_chat_1_8b/ │ │ │ ├── internlm2_chat_1_8b_full_alpaca_e3.py │ │ │ └── internlm2_chat_1_8b_qlora_alpaca_e3.py │ │ ├── internlm2_chat_20b/ │ │ │ ├── internlm2_chat_20b_full_finetune_custom_dataset_e1.py │ │ │ ├── internlm2_chat_20b_qlora_alpaca_e3.py │ │ │ ├── internlm2_chat_20b_qlora_code_alpaca_e3.py │ │ │ ├── internlm2_chat_20b_qlora_lawyer_e3.py │ │ │ ├── internlm2_chat_20b_qlora_oasst1_512_e3.py │ │ │ └── internlm2_chat_20b_qlora_oasst1_e3.py │ │ ├── internlm2_chat_7b/ │ │ │ ├── internlm2_chat_7b_full_finetune_custom_dataset_e1.py │ │ │ ├── internlm2_chat_7b_qlora_alpaca_e3.py │ │ │ ├── internlm2_chat_7b_qlora_code_alpaca_e3.py │ │ │ ├── internlm2_chat_7b_qlora_lawyer_e3.py │ │ │ ├── internlm2_chat_7b_qlora_oasst1_512_e3.py │ │ │ └── internlm2_chat_7b_qlora_oasst1_e3.py │ │ ├── internlm_20b/ │ │ │ ├── internlm_20b_qlora_alpaca_e3.py │ │ │ ├── internlm_20b_qlora_alpaca_enzh_e3.py │ │ │ ├── internlm_20b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── internlm_20b_qlora_alpaca_zh_e3.py │ │ │ ├── internlm_20b_qlora_arxiv_gentitle_e3.py │ │ │ ├── internlm_20b_qlora_code_alpaca_e3.py │ │ │ ├── internlm_20b_qlora_colorist_e5.py │ │ │ ├── internlm_20b_qlora_lawyer_e3.py │ │ │ ├── internlm_20b_qlora_msagent_react_e3_gpu8.py │ │ │ ├── internlm_20b_qlora_oasst1_512_e3.py │ │ │ ├── internlm_20b_qlora_oasst1_e3.py │ │ │ ├── internlm_20b_qlora_open_platypus_e3.py │ │ │ └── internlm_20b_qlora_sql_e3.py │ │ ├── internlm_7b/ │ │ │ ├── internlm_7b_full_alpaca_e3.py │ │ │ ├── internlm_7b_full_alpaca_enzh_e3.py │ │ │ ├── internlm_7b_full_alpaca_enzh_oasst1_e3.py │ │ │ ├── internlm_7b_full_alpaca_zh_e3.py │ │ │ ├── internlm_7b_full_intern_repo_dataset_template.py │ │ │ ├── internlm_7b_full_oasst1_e3.py │ │ │ ├── internlm_7b_qlora_alpaca_e3.py │ │ │ ├── internlm_7b_qlora_alpaca_enzh_e3.py │ │ │ ├── internlm_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── internlm_7b_qlora_alpaca_zh_e3.py │ │ │ ├── internlm_7b_qlora_arxiv_gentitle_e3.py │ │ │ ├── internlm_7b_qlora_code_alpaca_e3.py │ │ │ ├── internlm_7b_qlora_colorist_e5.py │ │ │ ├── internlm_7b_qlora_json_e3.py │ │ │ ├── internlm_7b_qlora_lawyer_e3.py │ │ │ ├── internlm_7b_qlora_medical_e1.py │ │ │ ├── internlm_7b_qlora_moss_sft_all_e1.py │ │ │ ├── internlm_7b_qlora_moss_sft_all_e2_gpu8.py │ │ │ ├── internlm_7b_qlora_moss_sft_plugins_e1.py │ │ │ ├── internlm_7b_qlora_msagent_react_e3_gpu8.py │ │ │ ├── internlm_7b_qlora_oasst1_512_e3.py │ │ │ ├── internlm_7b_qlora_oasst1_e3.py │ │ │ ├── internlm_7b_qlora_oasst1_e3_hf.py │ │ │ ├── internlm_7b_qlora_oasst1_mmlu_e3.py │ │ │ ├── internlm_7b_qlora_open_platypus_e3.py │ │ │ ├── internlm_7b_qlora_openorca_e1.py │ │ │ ├── internlm_7b_qlora_sql_e3.py │ │ │ └── internlm_7b_qlora_tiny_codes_e1.py │ │ ├── internlm_chat_20b/ │ │ │ ├── internlm_chat_20b_qlora_alpaca_e3.py │ │ │ ├── internlm_chat_20b_qlora_alpaca_enzh_e3.py │ │ │ ├── internlm_chat_20b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── internlm_chat_20b_qlora_alpaca_zh_e3.py │ │ │ ├── internlm_chat_20b_qlora_code_alpaca_e3.py │ │ │ ├── internlm_chat_20b_qlora_lawyer_e3.py │ │ │ ├── internlm_chat_20b_qlora_oasst1_512_e3.py │ │ │ ├── internlm_chat_20b_qlora_oasst1_e3.py │ │ │ └── internlm_chat_20b_qlora_open_platypus_e3.py │ │ └── internlm_chat_7b/ │ │ ├── internlm_chat_7b_qlora_alpaca_e3.py │ │ ├── internlm_chat_7b_qlora_alpaca_enzh_e3.py │ │ ├── internlm_chat_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ ├── internlm_chat_7b_qlora_alpaca_zh_e3.py │ │ ├── internlm_chat_7b_qlora_arxiv_gentitle_e3.py │ │ ├── internlm_chat_7b_qlora_code_alpaca_e3.py │ │ ├── internlm_chat_7b_qlora_colorist_e5.py │ │ ├── internlm_chat_7b_qlora_lawyer_e3.py │ │ ├── internlm_chat_7b_qlora_medical_e1.py │ │ ├── internlm_chat_7b_qlora_oasst1_512_e3.py │ │ ├── internlm_chat_7b_qlora_oasst1_e3.py │ │ ├── internlm_chat_7b_qlora_open_platypus_e3.py │ │ ├── internlm_chat_7b_qlora_openorca_e1.py │ │ ├── internlm_chat_7b_qlora_sql_e3.py │ │ └── internlm_chat_7b_qlora_tiny_codes_e1.py │ ├── llama/ │ │ ├── llama2_70b/ │ │ │ ├── llama2_70b_full_wizardlm_e1.py │ │ │ ├── llama2_70b_int8_lora_open_platypus_e1.py │ │ │ ├── llama2_70b_int8_lora_open_platypus_e1_hf.py │ │ │ ├── llama2_70b_qlora_open_platypus_e1.py │ │ │ └── llama2_70b_qlora_open_platypus_e1_hf.py │ │ ├── llama2_7b/ │ │ │ ├── llama2_7b_full_pgbooks_400iters_sp1.py │ │ │ ├── llama2_7b_full_pgbooks_400iters_sp4.py │ │ │ ├── llama2_7b_full_wizardlm_e1.py │ │ │ ├── llama2_7b_qlora_alpaca_e3.py │ │ │ ├── llama2_7b_qlora_alpaca_enzh_e3.py │ │ │ ├── llama2_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── llama2_7b_qlora_alpaca_zh_e3.py │ │ │ ├── llama2_7b_qlora_arxiv_gentitle_e3.py │ │ │ ├── llama2_7b_qlora_code_alpaca_e3.py │ │ │ ├── llama2_7b_qlora_colorist_e5.py │ │ │ ├── llama2_7b_qlora_lawyer_e3.py │ │ │ ├── llama2_7b_qlora_medical_e1.py │ │ │ ├── llama2_7b_qlora_moss_sft_all_e1.py │ │ │ ├── llama2_7b_qlora_moss_sft_all_e2_gpu8.py │ │ │ ├── llama2_7b_qlora_moss_sft_plugins_e1.py │ │ │ ├── llama2_7b_qlora_msagent_react_e3_gpu8.py │ │ │ ├── llama2_7b_qlora_oasst1_512_e3.py │ │ │ ├── llama2_7b_qlora_oasst1_e3.py │ │ │ ├── llama2_7b_qlora_open_platypus_e3.py │ │ │ ├── llama2_7b_qlora_openorca_e1.py │ │ │ ├── llama2_7b_qlora_sql_e3.py │ │ │ └── llama2_7b_qlora_tiny_codes_e1.py │ │ ├── llama2_7b_chat/ │ │ │ ├── llama2_7b_chat_qlora_alpaca_e3.py │ │ │ ├── llama2_7b_chat_qlora_alpaca_enzh_e3.py │ │ │ ├── llama2_7b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── llama2_7b_chat_qlora_alpaca_zh_e3.py │ │ │ ├── llama2_7b_chat_qlora_arxiv_gentitle_e3.py │ │ │ ├── llama2_7b_chat_qlora_code_alpaca_e3.py │ │ │ ├── llama2_7b_chat_qlora_colorist_e5.py │ │ │ ├── llama2_7b_chat_qlora_lawyer_e3.py │ │ │ ├── llama2_7b_chat_qlora_medical_e1.py │ │ │ ├── llama2_7b_chat_qlora_oasst1_512_e3.py │ │ │ ├── llama2_7b_chat_qlora_oasst1_e3.py │ │ │ ├── llama2_7b_chat_qlora_open_platypus_e3.py │ │ │ ├── llama2_7b_chat_qlora_openorca_e1.py │ │ │ ├── llama2_7b_chat_qlora_sql_e3.py │ │ │ └── llama2_7b_chat_qlora_tiny_codes_e1.py │ │ ├── llama3_70b_instruct/ │ │ │ └── llama3_70b_instruct_qlora_alpaca_e3_2k_gpu8.py │ │ ├── llama3_8b/ │ │ │ ├── README.md │ │ │ └── llama3_8b_full_alpaca_e3.py │ │ ├── llama3_8b_instruct/ │ │ │ ├── llama3_8b_instruct_full_alpaca_e3.py │ │ │ └── llama3_8b_instruct_qlora_alpaca_e3.py │ │ └── llama_7b/ │ │ ├── llama_7b_qlora_alpaca_e3.py │ │ ├── llama_7b_qlora_alpaca_enzh_e3.py │ │ ├── llama_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ ├── llama_7b_qlora_alpaca_zh_e3.py │ │ ├── llama_7b_qlora_arxiv_gentitle_e3.py │ │ ├── llama_7b_qlora_code_alpaca_e3.py │ │ ├── llama_7b_qlora_colorist_e5.py │ │ ├── llama_7b_qlora_lawyer_e3.py │ │ ├── llama_7b_qlora_medical_e1.py │ │ ├── llama_7b_qlora_moss_sft_all_e1.py │ │ ├── llama_7b_qlora_moss_sft_all_e2_gpu8.py │ │ ├── llama_7b_qlora_moss_sft_plugins_e1.py │ │ ├── llama_7b_qlora_oasst1_512_e3.py │ │ ├── llama_7b_qlora_oasst1_e3.py │ │ ├── llama_7b_qlora_open_platypus_e3.py │ │ ├── llama_7b_qlora_openorca_e1.py │ │ ├── llama_7b_qlora_sql_e3.py │ │ └── llama_7b_qlora_tiny_codes_e1.py │ ├── llama_speed_benchmark/ │ │ ├── llama2_70b/ │ │ │ ├── llama2_70b_full_alpaca_enzh_128k_sp8.py │ │ │ ├── llama2_70b_full_alpaca_enzh_256k_sp16.py │ │ │ ├── llama2_70b_full_alpaca_enzh_32k_sp4.py │ │ │ └── llama2_70b_full_alpaca_enzh_8k_sp1.py │ │ ├── llama2_7b/ │ │ │ ├── llama2_7b_full_alpaca_enzh_128k_sp8.py │ │ │ ├── llama2_7b_full_alpaca_enzh_1M_sp16.py │ │ │ ├── llama2_7b_full_alpaca_enzh_256k_sp8.py │ │ │ ├── llama2_7b_full_alpaca_enzh_32k_sp1.py │ │ │ └── llama2_7b_full_alpaca_enzh_8k_sp1.py │ │ └── yi_34b/ │ │ ├── yi_34b_200k_full_alpaca_enzh_128k_sp8.py │ │ ├── yi_34b_200k_full_alpaca_enzh_256k_sp8.py │ │ ├── yi_34b_200k_full_alpaca_enzh_32k_sp2.py │ │ └── yi_34b_200k_full_alpaca_enzh_8k_sp1.py │ ├── llava/ │ │ ├── README.md │ │ ├── README_zh-CN.md │ │ ├── internlm2_chat_1_8b_clip_vit_large_p14_336/ │ │ │ ├── finetune/ │ │ │ │ └── llava_internlm2_chat_1_8b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ └── pretrain/ │ │ │ └── llava_internlm2_chat_1_8b_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ ├── internlm2_chat_20b_clip_vit_large_p14_336/ │ │ │ ├── finetune/ │ │ │ │ ├── llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_finetune.py │ │ │ │ └── llava_internlm2_chat_20b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ └── pretrain/ │ │ │ └── llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ ├── internlm2_chat_7b_clip_vit_large_p14_336/ │ │ │ ├── finetune/ │ │ │ │ ├── llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_finetune.py │ │ │ │ └── llava_internlm2_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ └── pretrain/ │ │ │ └── llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ ├── internlm_chat_7b_clip_vit_large_p14_336/ │ │ │ ├── finetune/ │ │ │ │ └── llava_internlm_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ └── pretrain/ │ │ │ └── llava_internlm_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ ├── llama3_70b_instruct_clip_vit_large_p14_336/ │ │ │ └── pretrain/ │ │ │ └── llava_llama3_70b_instruct_quant_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ ├── llama3_8b_instruct_clip_vit_large_p14_336/ │ │ │ ├── README.md │ │ │ ├── convert_xtuner_weights_to_hf.py │ │ │ ├── convert_xtuner_weights_to_llava.py │ │ │ ├── finetune/ │ │ │ │ ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_e1_gpu8_finetune.py │ │ │ │ ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ │ ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_lora_e1_gpu8_internvl_finetune.py │ │ │ │ └── llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_e1_gpu1_finetune.py │ │ │ └── pretrain/ │ │ │ ├── llava_llama3_8b_instruct_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ ├── llava_llama3_8b_instruct_clip_vit_large_p14_336_e1_gpu8_sharegpt4v_pretrain.py │ │ │ └── llava_llama3_8b_instruct_quant_clip_vit_large_p14_336_e1_gpu1_pretrain.py │ │ ├── official/ │ │ │ ├── llava_v15_13b/ │ │ │ │ ├── llava_v15_13b_finetune.py │ │ │ │ ├── llava_v15_13b_finetune_lora.py │ │ │ │ └── llava_v15_13b_pretrain.py │ │ │ └── llava_v15_7b/ │ │ │ ├── llava_v15_7b_finetune.py │ │ │ ├── llava_v15_7b_finetune_lora.py │ │ │ └── llava_v15_7b_pretrain.py │ │ ├── phi3_mini_4k_instruct_clip_vit_large_p14_336/ │ │ │ ├── README.md │ │ │ ├── convert_phi_to_llama.py │ │ │ ├── convert_xtuner_weights_to_hf.py │ │ │ ├── convert_xtuner_weights_to_llava.py │ │ │ ├── finetune/ │ │ │ │ ├── llava_phi3_mini_4k_instruct_full_clip_vit_large_p14_336_e1_gpu8_finetune.py │ │ │ │ └── llava_phi3_mini_4k_instruct_full_clip_vit_large_p14_336_full_e2_gpu8_internvl_finetune.py │ │ │ └── pretrain/ │ │ │ ├── llava_phi3_mini_4k_instruct_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ │ └── llava_phi3_mini_4k_instruct_clip_vit_large_p14_336_e1_gpu8_sharegpt4v_pretrain.py │ │ ├── vicuna_13b_v15_clip_vit_large_p14_336/ │ │ │ ├── finetune/ │ │ │ │ └── llava_vicuna_13b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ └── pretrain/ │ │ │ └── llava_vicuna_13b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ │ └── vicuna_7b_v15_clip_vit_large_p14_336/ │ │ ├── finetune/ │ │ │ ├── llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py │ │ │ └── llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune_refcoco.py │ │ └── pretrain/ │ │ └── llava_vicuna_7b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py │ ├── mistral/ │ │ ├── mistral_7b_full_finetune_custom_dataset_e1.py │ │ ├── mistral_7b_qlora_skypile_pretrain_e1.py │ │ ├── mistral_7b_w_tokenized_dataset.py │ │ └── mistral_7b_w_untokenized_dataset.py │ ├── mixtral/ │ │ ├── README.md │ │ ├── mixtral_8x7b/ │ │ │ ├── mixtral_8x7b_full_oasst1_e3.py │ │ │ └── mixtral_8x7b_qlora_oasst1_e3.py │ │ └── mixtral_8x7b_instruct/ │ │ ├── mixtral_8x7b_instruct_full_oasst1_e3.py │ │ └── mixtral_8x7b_instruct_qlora_oasst1_e3.py │ ├── orpo/ │ │ ├── internlm/ │ │ │ ├── internlm2_chat_1_8b_orpo_full.py │ │ │ ├── internlm2_chat_1_8b_orpo_full_varlenattn.py │ │ │ ├── internlm2_chat_1_8b_orpo_full_varlenattn_jsonl_dataset.py │ │ │ └── internlm2_chat_7b_orpo_qlora_varlenattn_ultrafeedback_e5.py │ │ └── llama/ │ │ └── llama3_8b_instruct_orpo_qlora_varlenattn_ultrafeedback_e5.py │ ├── phi/ │ │ └── phi3/ │ │ ├── phi3_mini_128k_instruct_full_alpaca_e3.py │ │ ├── phi3_mini_128k_instruct_qlora_alpaca_e3.py │ │ ├── phi3_mini_4k_instruct_full_alpaca_e3.py │ │ └── phi3_mini_4k_instruct_qlora_alpaca_e3.py │ ├── qwen/ │ │ ├── qwen1/ │ │ │ ├── qwen_1_8b/ │ │ │ │ ├── qwen_1_8b_qlora_alpaca_e3.py │ │ │ │ ├── qwen_1_8b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── qwen_1_8b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── qwen_1_8b_qlora_alpaca_zh_e3.py │ │ │ │ └── qwen_1_8b_qlora_code_alpaca_e3.py │ │ │ ├── qwen_1_8b_chat/ │ │ │ │ ├── qwen_1_8b_chat_qlora_alpaca_e3.py │ │ │ │ ├── qwen_1_8b_chat_qlora_alpaca_enzh_e3.py │ │ │ │ ├── qwen_1_8b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── qwen_1_8b_chat_qlora_alpaca_zh_e3.py │ │ │ │ └── qwen_1_8b_chat_qlora_code_alpaca_e3.py │ │ │ ├── qwen_72b/ │ │ │ │ ├── qwen_72b_qlora_alpaca_e3.py │ │ │ │ ├── qwen_72b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── qwen_72b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── qwen_72b_qlora_alpaca_zh_e3.py │ │ │ │ └── qwen_72b_qlora_code_alpaca_e3.py │ │ │ ├── qwen_7b/ │ │ │ │ ├── qwen_7b_qlora_alpaca_e3.py │ │ │ │ ├── qwen_7b_qlora_alpaca_enzh_e3.py │ │ │ │ ├── qwen_7b_qlora_alpaca_enzh_oasst1_e3.py │ │ │ │ ├── qwen_7b_qlora_alpaca_zh_e3.py │ │ │ │ ├── qwen_7b_qlora_arxiv_gentitle_e3.py │ │ │ │ ├── qwen_7b_qlora_code_alpaca_e3.py │ │ │ │ ├── qwen_7b_qlora_colorist_e5.py │ │ │ │ ├── qwen_7b_qlora_lawyer_e3.py │ │ │ │ ├── qwen_7b_qlora_medical_e1.py │ │ │ │ ├── qwen_7b_qlora_moss_sft_all_e1.py │ │ │ │ ├── qwen_7b_qlora_moss_sft_all_e2_gpu8.py │ │ │ │ ├── qwen_7b_qlora_moss_sft_plugins_e1.py │ │ │ │ ├── qwen_7b_qlora_oasst1_512_e3.py │ │ │ │ ├── qwen_7b_qlora_oasst1_e3.py │ │ │ │ ├── qwen_7b_qlora_open_platypus_e3.py │ │ │ │ ├── qwen_7b_qlora_openorca_e1.py │ │ │ │ ├── qwen_7b_qlora_sql_e3.py │ │ │ │ └── qwen_7b_qlora_tiny_codes_e1.py │ │ │ └── qwen_7b_chat/ │ │ │ ├── qwen_7b_chat_qlora_alpaca_e3.py │ │ │ ├── qwen_7b_chat_qlora_alpaca_enzh_e3.py │ │ │ ├── qwen_7b_chat_qlora_alpaca_enzh_oasst1_e3.py │ │ │ ├── qwen_7b_chat_qlora_alpaca_zh_e3.py │ │ │ ├── qwen_7b_chat_qlora_arxiv_gentitle_e3.py │ │ │ ├── qwen_7b_chat_qlora_code_alpaca_e3.py │ │ │ ├── qwen_7b_chat_qlora_colorist_e5.py │ │ │ ├── qwen_7b_chat_qlora_lawyer_e3.py │ │ │ ├── qwen_7b_chat_qlora_medical_e1.py │ │ │ ├── qwen_7b_chat_qlora_oasst1_512_e3.py │ │ │ ├── qwen_7b_chat_qlora_oasst1_e3.py │ │ │ ├── qwen_7b_chat_qlora_open_platypus_e3.py │ │ │ ├── qwen_7b_chat_qlora_openorca_e1.py │ │ │ ├── qwen_7b_chat_qlora_sql_e3.py │ │ │ └── qwen_7b_chat_qlora_tiny_codes_e1.py │ │ └── qwen1_5/ │ │ ├── qwen1_5_0_5b/ │ │ │ ├── qwen1_5_0_5b_full_alpaca_e3.py │ │ │ └── qwen1_5_0_5b_qlora_alpaca_e3.py │ │ ├── qwen1_5_0_5b_chat/ │ │ │ ├── qwen1_5_0_5b_chat_full_alpaca_e3.py │ │ │ └── qwen1_5_0_5b_chat_qlora_alpaca_e3.py │ │ ├── qwen1_5_110b/ │ │ │ ├── qwen1_5_110b_full_alpaca_e3.py │ │ │ └── qwen1_5_110b_qlora_alpaca_e3.py │ │ ├── qwen1_5_110b_chat/ │ │ │ ├── README.md │ │ │ ├── qwen1_5_110b_chat_full_alpaca_e3.py │ │ │ ├── qwen1_5_110b_chat_qlora_alpaca_e3.py │ │ │ └── qwen1_5_110b_chat_qlora_alpaca_e3_16k_2gpus.py │ │ ├── qwen1_5_14b/ │ │ │ ├── qwen1_5_14b_full_alpaca_e3.py │ │ │ └── qwen1_5_14b_qlora_alpaca_e3.py │ │ ├── qwen1_5_14b_chat/ │ │ │ ├── qwen1_5_14b_chat_full_alpaca_e3.py │ │ │ └── qwen1_5_14b_chat_qlora_alpaca_e3.py │ │ ├── qwen1_5_1_8b/ │ │ │ ├── qwen1_5_1_8b_full_alpaca_e3.py │ │ │ └── qwen1_5_1_8b_qlora_alpaca_e3.py │ │ ├── qwen1_5_1_8b_chat/ │ │ │ ├── qwen1_5_1_8b_chat_full_alpaca_e3.py │ │ │ └── qwen1_5_1_8b_chat_qlora_alpaca_e3.py │ │ ├── qwen1_5_4b/ │ │ │ ├── qwen1_5_4b_full_alpaca_e3.py │ │ │ └── qwen1_5_4b_qlora_alpaca_e3.py │ │ ├── qwen1_5_4b_chat/ │ │ │ ├── qwen1_5_4b_chat_full_alpaca_e3.py │ │ │ └── qwen1_5_4b_chat_qlora_alpaca_e3.py │ │ ├── qwen1_5_72b/ │ │ │ ├── qwen1_5_72b_full_alpaca_e3.py │ │ │ └── qwen1_5_72b_qlora_alpaca_e3.py │ │ ├── qwen1_5_72b_chat/ │ │ │ ├── qwen1_5_72b_chat_full_alpaca_e3.py │ │ │ └── qwen1_5_72b_chat_qlora_alpaca_e3.py │ │ ├── qwen1_5_7b/ │ │ │ ├── qwen1_5_7b_full_alpaca_e3.py │ │ │ └── qwen1_5_7b_qlora_alpaca_e3.py │ │ └── qwen1_5_7b_chat/ │ │ ├── qwen1_5_7b_chat_full_alpaca_e3.py │ │ └── qwen1_5_7b_chat_qlora_alpaca_e3.py │ ├── qwen_moe/ │ │ └── qwen1_5/ │ │ └── qwen1_5_moe_a2_7_b_chat/ │ │ └── qwen1_5_moe_a2_7_b_chat_full_alpaca_e3.py │ ├── reward_model/ │ │ ├── internlm/ │ │ │ ├── internlm2_chat_1_8b_reward_full_ultrafeedback.py │ │ │ ├── internlm2_chat_1_8b_reward_full_varlenattn_jsonl_dataset.py │ │ │ ├── internlm2_chat_1_8b_reward_full_varlenattn_ultrafeedback.py │ │ │ └── internlm2_chat_1_8b_reward_qlora_varlenattn_ultrafeedback.py │ │ └── llama/ │ │ └── llama3_8b_instruct_reward_full_varlenattn_ultrafeedback.py │ ├── starcoder/ │ │ └── starcoder_qlora_stack_exchange_example.py │ ├── yi/ │ │ ├── yi_34b/ │ │ │ └── yi_34b_qlora_alpaca_enzh_e3.py │ │ └── yi_6b/ │ │ └── yi_6b_qlora_alpaca_enzh_e3.py │ └── zephyr/ │ └── zephyr_7b_beta_qlora_alpaca_e3.py ├── dataset/ │ ├── __init__.py │ ├── collate_fns/ │ │ ├── __init__.py │ │ ├── default_collate_fn.py │ │ ├── mmlu_collate_fn.py │ │ └── preference_collate_fn.py │ ├── concat_dataset.py │ ├── huggingface.py │ ├── intern_repo.py │ ├── json_dataset.py │ ├── llava.py │ ├── map_fns/ │ │ ├── __init__.py │ │ ├── dataset_map_fns/ │ │ │ ├── __init__.py │ │ │ ├── alpaca_map_fn.py │ │ │ ├── alpaca_zh_map_fn.py │ │ │ ├── arxiv_map_fn.py │ │ │ ├── code_alpaca_map_fn.py │ │ │ ├── colors_map_fn.py │ │ │ ├── crime_kg_assitant_map_fn.py │ │ │ ├── default_map_fn.py │ │ │ ├── law_reference_map_fn.py │ │ │ ├── llava_map_fn.py │ │ │ ├── medical_map_fn.py │ │ │ ├── msagent_map_fn.py │ │ │ ├── oasst1_map_fn.py │ │ │ ├── openai_map_fn.py │ │ │ ├── openorca_map_fn.py │ │ │ ├── pretrain_map_fn.py │ │ │ ├── sql_map_fn.py │ │ │ ├── stack_exchange_map_fn.py │ │ │ ├── tiny_codes_map_fn.py │ │ │ └── wizardlm_map_fn.py │ │ └── template_map_fn.py │ ├── modelscope.py │ ├── moss_sft.py │ ├── preference_dataset.py │ ├── refcoco_json.py │ ├── samplers/ │ │ ├── __init__.py │ │ ├── intern_repo.py │ │ └── length_grouped.py │ └── utils.py ├── engine/ │ ├── __init__.py │ ├── _strategy/ │ │ ├── __init__.py │ │ └── deepspeed.py │ ├── hooks/ │ │ ├── __init__.py │ │ ├── dataset_info_hook.py │ │ ├── evaluate_chat_hook.py │ │ ├── hf_checkpoint_hook.py │ │ ├── throughput_hook.py │ │ └── varlen_attn_args_to_messagehub_hook.py │ └── runner/ │ ├── __init__.py │ └── loops.py ├── entry_point.py ├── evaluation/ │ ├── __init__.py │ └── metrics/ │ ├── __init__.py │ ├── mmlu_metric.py │ └── reward_metric.py ├── model/ │ ├── __init__.py │ ├── dpo.py │ ├── llava.py │ ├── modules/ │ │ ├── __init__.py │ │ ├── dispatch/ │ │ │ ├── __init__.py │ │ │ ├── attention.py │ │ │ ├── baichuan.py │ │ │ ├── cohere.py │ │ │ ├── deepseek_v2.py │ │ │ ├── internlm.py │ │ │ ├── internlm2.py │ │ │ ├── llama.py │ │ │ ├── mistral.py │ │ │ ├── phi3.py │ │ │ ├── qwen2.py │ │ │ ├── triton_kernels/ │ │ │ │ ├── __init__.py │ │ │ │ ├── layer_norm.py │ │ │ │ ├── rms_norm.py │ │ │ │ └── rotary.py │ │ │ ├── utils.py │ │ │ └── yi.py │ │ └── projector/ │ │ ├── __init__.py │ │ ├── configuration_projector.py │ │ └── modeling_projector.py │ ├── orpo.py │ ├── reward.py │ ├── sft.py │ ├── transformers_models/ │ │ ├── __init__.py │ │ ├── deepseek_v2/ │ │ │ ├── __init__.py │ │ │ ├── configuration_deepseek.py │ │ │ ├── modeling_deepseek.py │ │ │ └── tokenization_deepseek_fast.py │ │ └── mixtral/ │ │ ├── __init__.py │ │ ├── configuration_mixtral.py │ │ └── modeling_mixtral.py │ └── utils.py ├── parallel/ │ ├── __init__.py │ └── sequence/ │ ├── __init__.py │ ├── attention.py │ ├── comm.py │ ├── data_collate.py │ ├── reduce_loss.py │ ├── sampler.py │ └── setup_distributed.py ├── registry.py ├── tools/ │ ├── chat.py │ ├── check_custom_dataset.py │ ├── copy_cfg.py │ ├── data_preprocess/ │ │ ├── arxiv.py │ │ └── convert_refcoco.py │ ├── eval_refcoco.py │ ├── get_data_order.py │ ├── list_cfg.py │ ├── list_dataset_format.py │ ├── log_dataset.py │ ├── mmbench.py │ ├── model_converters/ │ │ ├── merge.py │ │ ├── modeling_internlm2_reward/ │ │ │ ├── __init__.py │ │ │ ├── configuration_internlm2.py │ │ │ └── modeling_internlm2.py │ │ ├── pth_to_hf.py │ │ └── split.py │ ├── plugins/ │ │ ├── __init__.py │ │ ├── api.py │ │ ├── calculate.py │ │ ├── search.py │ │ └── solve.py │ ├── process_untokenized_datasets.py │ ├── process_untokenized_datasets_legacy.py │ ├── process_untokenized_llava_data.py │ ├── test.py │ ├── tokenize_ftdp_datasets.py │ ├── train.py │ └── utils.py ├── utils/ │ ├── __init__.py │ ├── constants.py │ ├── fileio.py │ ├── handle_moe_load_and_save.py │ ├── stop_criteria.py │ ├── templates.py │ └── zero_to_any_dtype.py └── version.py