gitextract_mlwsex56/

├── .gitattributes
├── LICENSE
├── README.md
├── llava-train_videochat/
│   ├── .dockerignore
│   ├── .editorconfig
│   ├── .gitattributes
│   ├── .gitignore
│   ├── LICENSE
│   ├── README.md
│   ├── cog.yaml
│   ├── data/
│   │   ├── ablation_short-long_mix_sft.yaml
│   │   ├── stage1_init_connector_iv1m.yaml
│   │   ├── stage2_short_pretrain_iv6m.yaml
│   │   ├── stage3_short-long_mix_sft.yaml
│   │   └── stage4_highres_postsft.yaml
│   ├── llava/
│   │   ├── __init__.py
│   │   ├── constants.py
│   │   ├── conversation.py
│   │   ├── dist_utils.py
│   │   ├── mm_utils.py
│   │   ├── model/
│   │   │   ├── __init__.py
│   │   │   ├── apply_delta.py
│   │   │   ├── builder.py
│   │   │   ├── consolidate.py
│   │   │   ├── language_model/
│   │   │   │   ├── llava_qwen.py
│   │   │   │   ├── llava_qwen_flash.py
│   │   │   │   └── modeling_qwen2_flash.py
│   │   │   ├── llava_arch.py
│   │   │   ├── make_delta.py
│   │   │   ├── multimodal_encoder/
│   │   │   │   ├── builder.py
│   │   │   │   ├── clip_encoder.py
│   │   │   │   ├── internvideo2/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── flash_attention_class.py
│   │   │   │   │   ├── pos_embed.py
│   │   │   │   │   └── vit_scale_clean.py
│   │   │   │   ├── internvideo2_encoder.py
│   │   │   │   ├── siglip_encoder.py
│   │   │   │   ├── umt/
│   │   │   │   │   └── vit.py
│   │   │   │   └── umt_encoder.py
│   │   │   ├── multimodal_projector/
│   │   │   │   ├── builder.py
│   │   │   │   └── tome16_mlp_hd64.py
│   │   │   └── utils.py
│   │   ├── serialize_utils.py
│   │   ├── train/
│   │   │   ├── llava_trainer.py
│   │   │   ├── llava_trainer_eval.py
│   │   │   ├── train.py
│   │   │   └── train_mem.py
│   │   ├── utils.py
│   │   └── video_utils.py
│   ├── pyproject.toml
│   ├── requirements.txt
│   └── scripts/
│       ├── train/
│       │   ├── stage1-init_connector/
│       │   │   ├── stage1_internvideo2_tome16_res224_qwen7b.sh
│       │   │   ├── stage1_umt_tome16_res224_qwen7b.sh
│       │   │   └── stage1_umt_tome16_res448_qwen1_5b.sh
│       │   ├── stage2-visual_pretraining/
│       │   │   ├── stage2_internvideo2_tome16_res224_qwen_7b.sh
│       │   │   ├── stage2_umt_tome16_res224_qwen_7b.sh
│       │   │   └── stage2_umt_tome16_res448_qwen_1_5b.sh
│       │   ├── stage3-video_sft/
│       │   │   ├── stage3_internvideo2_tome16_res224_qwen_7b.sh
│       │   │   ├── stage3_umt_tome16_res224_qwen_7b.sh
│       │   │   └── stage3_umt_tome16_res448_qwen_1_5b.sh
│       │   └── stage4_highres_postft/
│       │       └── stage4_umt_tome16_res448_qwen_7b.sh
│       ├── zero1.json
│       ├── zero2.json
│       ├── zero2_fused_adamw.json
│       ├── zero2_offload.json
│       ├── zero3.json
│       ├── zero3_offload.json
│       └── zero3pp.json
├── lmms-eval_videochat/
│   ├── .gitignore
│   ├── .pre-commit-config.yaml
│   ├── LICENSE
│   ├── README.md
│   ├── docs/
│   │   ├── README.md
│   │   ├── commands.md
│   │   ├── current_tasks.md
│   │   ├── model_guide.md
│   │   ├── run_examples.md
│   │   └── task_guide.md
│   ├── eval_annotations/
│   │   ├── LVBench/
│   │   │   ├── README.md
│   │   │   └── json/
│   │   │       ├── lvbench_clean.json
│   │   │       ├── lvbench_clean_cartoon.json
│   │   │       ├── lvbench_clean_documentary.json
│   │   │       ├── lvbench_clean_live.json
│   │   │       ├── lvbench_clean_selfmedia.json
│   │   │       ├── lvbench_clean_sport.json
│   │   │       └── lvbench_clean_tv.json
│   │   ├── LongVideoBench/
│   │   │   ├── README.md
│   │   │   ├── lvb_test_wo_gt.json
│   │   │   ├── lvb_val.json
│   │   │   ├── test-00000-of-00001.parquet
│   │   │   └── validation-00000-of-00001.parquet
│   │   ├── MLVU_MC/
│   │   │   ├── README.md
│   │   │   └── json/
│   │   │       ├── 1_plotQA.json
│   │   │       ├── 2_needle.json
│   │   │       ├── 3_ego.json
│   │   │       ├── 4_count.json
│   │   │       ├── 5_order.json
│   │   │       ├── 6_anomaly_reco.json
│   │   │       └── 7_topic_reasoning.json
│   │   ├── MVBench/
│   │   │   ├── README.md
│   │   │   └── json/
│   │   │       ├── action_antonym.json
│   │   │       ├── action_count.json
│   │   │       ├── action_localization.json
│   │   │       ├── action_prediction.json
│   │   │       ├── action_sequence.json
│   │   │       ├── character_order.json
│   │   │       ├── counterfactual_inference.json
│   │   │       ├── egocentric_navigation.json
│   │   │       ├── episodic_reasoning.json
│   │   │       ├── fine_grained_action.json
│   │   │       ├── fine_grained_pose.json
│   │   │       ├── moving_attribute.json
│   │   │       ├── moving_count.json
│   │   │       ├── moving_direction.json
│   │   │       ├── object_existence.json
│   │   │       ├── object_interaction.json
│   │   │       ├── object_shuffle.json
│   │   │       ├── scene_transition.json
│   │   │       ├── state_change.json
│   │   │       └── unexpected_action.json
│   │   ├── PerceptionTest/
│   │   │   ├── .gitattributes
│   │   │   └── README.md
│   │   ├── Temporal_Grounding/
│   │   │   ├── README.md
│   │   │   └── json/
│   │   │       └── temporal_grounding_charades.json
│   │   └── Video-MME/
│   │       ├── README.md
│   │       └── videomme/
│   │           └── test-00000-of-00001.parquet
│   ├── lmms_eval/
│   │   ├── __init__.py
│   │   ├── __main__.py
│   │   ├── api/
│   │   │   ├── __init__.py
│   │   │   ├── filter.py
│   │   │   ├── instance.py
│   │   │   ├── metrics.py
│   │   │   ├── model.py
│   │   │   ├── registry.py
│   │   │   ├── samplers.py
│   │   │   └── task.py
│   │   ├── evaluator.py
│   │   ├── filters/
│   │   │   ├── __init__.py
│   │   │   ├── decontamination.py
│   │   │   ├── extraction.py
│   │   │   ├── selection.py
│   │   │   └── transformation.py
│   │   ├── logging_utils.py
│   │   ├── models/
│   │   │   ├── __init__.py
│   │   │   └── videochat_flash.py
│   │   ├── tasks/
│   │   │   ├── __init__.py
│   │   │   ├── _task_utils/
│   │   │   │   ├── file_utils.py
│   │   │   │   ├── gpt_eval_utils.py
│   │   │   │   ├── video_loader.py
│   │   │   │   └── vqa_eval_metric.py
│   │   │   ├── longvideobench/
│   │   │   │   ├── longvideobench_test_v.yaml
│   │   │   │   ├── longvideobench_val_i.yaml
│   │   │   │   ├── longvideobench_val_v.yaml
│   │   │   │   └── utils.py
│   │   │   ├── lvbench/
│   │   │   │   ├── _default_template.yaml
│   │   │   │   ├── lvbench.yaml
│   │   │   │   ├── lvbench_cartoon.yaml
│   │   │   │   ├── lvbench_documentary.yaml
│   │   │   │   ├── lvbench_live.yaml
│   │   │   │   ├── lvbench_selfmedia.yaml
│   │   │   │   ├── lvbench_sport.yaml
│   │   │   │   ├── lvbench_tv.yaml
│   │   │   │   └── utils.py
│   │   │   ├── mlvu_mc/
│   │   │   │   ├── _default_template.yaml
│   │   │   │   ├── mlvu_mc.yaml
│   │   │   │   ├── mlvu_mc_anomaly_reco.yaml
│   │   │   │   ├── mlvu_mc_count.yaml
│   │   │   │   ├── mlvu_mc_ego.yaml
│   │   │   │   ├── mlvu_mc_needle.yaml
│   │   │   │   ├── mlvu_mc_order.yaml
│   │   │   │   ├── mlvu_mc_plotqa.yaml
│   │   │   │   ├── mlvu_mc_topic_reasoning.yaml
│   │   │   │   └── utils.py
│   │   │   ├── mvbench/
│   │   │   │   ├── _default_template.yaml
│   │   │   │   ├── mvbench.yaml
│   │   │   │   ├── mvbench_action_antonym.yaml
│   │   │   │   ├── mvbench_action_count.yaml
│   │   │   │   ├── mvbench_action_localization.yaml
│   │   │   │   ├── mvbench_action_prediction.yaml
│   │   │   │   ├── mvbench_action_sequence.yaml
│   │   │   │   ├── mvbench_character_order.yaml
│   │   │   │   ├── mvbench_counterfactual_inference.yaml
│   │   │   │   ├── mvbench_egocentric_navigation.yaml
│   │   │   │   ├── mvbench_episodic_reasoning.yaml
│   │   │   │   ├── mvbench_fine_grained_action.yaml
│   │   │   │   ├── mvbench_fine_grained_pose.yaml
│   │   │   │   ├── mvbench_moving_attribute.yaml
│   │   │   │   ├── mvbench_moving_count.yaml
│   │   │   │   ├── mvbench_moving_direction.yaml
│   │   │   │   ├── mvbench_object_existence.yaml
│   │   │   │   ├── mvbench_object_interaction.yaml
│   │   │   │   ├── mvbench_object_shuffle.yaml
│   │   │   │   ├── mvbench_scene_transition.yaml
│   │   │   │   ├── mvbench_state_change.yaml
│   │   │   │   ├── mvbench_unexpected_action.yaml
│   │   │   │   └── utils.py
│   │   │   ├── perceptiontest/
│   │   │   │   └── val/
│   │   │   │       ├── _default_template_yaml
│   │   │   │       ├── perceptiontest_mc.yaml
│   │   │   │       └── utils.py
│   │   │   ├── temporal_grounding/
│   │   │   │   ├── _default_template.yaml
│   │   │   │   ├── charades.yaml
│   │   │   │   ├── eval_tvg.py
│   │   │   │   └── utils.py
│   │   │   └── videomme/
│   │   │       ├── utils.py
│   │   │       ├── videomme.yaml
│   │   │       └── videomme_w_subtitle.yaml
│   │   └── utils.py
│   ├── pyproject.toml
│   ├── scripts/
│   │   ├── eval_longvideobench.sh
│   │   ├── eval_lvbench.sh
│   │   ├── eval_mlvu.sh
│   │   ├── eval_mvbench.sh
│   │   ├── eval_perceptiontest_val_mc.sh
│   │   ├── eval_temporal_grounding_chardes.sh
│   │   └── eval_videomme.sh
│   ├── setup.py
│   └── videochat-flash-7B@448_eval_log_videomme.json
├── xtuner-eval_niah/
│   ├── README.md
│   ├── llava/
│   │   ├── __init__.py
│   │   ├── constants.py
│   │   ├── conversation.py
│   │   ├── dist_utils.py
│   │   ├── mm_utils.py
│   │   ├── model/
│   │   │   ├── __init__.py
│   │   │   ├── apply_delta.py
│   │   │   ├── builder.py
│   │   │   ├── consolidate.py
│   │   │   ├── language_model/
│   │   │   │   ├── llava_qwen.py
│   │   │   │   ├── llava_qwen_flash.py
│   │   │   │   └── modeling_qwen2_flash.py
│   │   │   ├── llava_arch.py
│   │   │   ├── make_delta.py
│   │   │   ├── multimodal_encoder/
│   │   │   │   ├── builder.py
│   │   │   │   ├── clip_encoder.py
│   │   │   │   ├── internvideo2/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── flash_attention_class.py
│   │   │   │   │   ├── pos_embed.py
│   │   │   │   │   └── vit_scale_clean.py
│   │   │   │   ├── internvideo2_encoder.py
│   │   │   │   ├── siglip_encoder.py
│   │   │   │   ├── umt/
│   │   │   │   │   └── vit.py
│   │   │   │   └── umt_encoder.py
│   │   │   ├── multimodal_projector/
│   │   │   │   ├── builder.py
│   │   │   │   └── tome16_mlp_hd64.py
│   │   │   └── utils.py
│   │   ├── serialize_utils.py
│   │   ├── train/
│   │   │   ├── llava_trainer.py
│   │   │   ├── llava_trainer_eval.py
│   │   │   ├── train.py
│   │   │   └── train_mem.py
│   │   ├── utils.py
│   │   └── video_utils.py
│   ├── longva/
│   │   ├── __init__.py
│   │   ├── constants.py
│   │   ├── conversation.py
│   │   ├── mm_utils.py
│   │   ├── model/
│   │   │   ├── __init__.py
│   │   │   ├── apply_delta.py
│   │   │   ├── builder.py
│   │   │   ├── consolidate.py
│   │   │   ├── language_model/
│   │   │   │   ├── llava_llama.py
│   │   │   │   ├── llava_mistral.py
│   │   │   │   ├── llava_mpt.py
│   │   │   │   ├── llava_qwen.py
│   │   │   │   └── modeling_llama.py
│   │   │   ├── llava_arch.py
│   │   │   ├── make_delta.py
│   │   │   ├── multimodal_encoder/
│   │   │   │   ├── builder.py
│   │   │   │   └── clip_encoder.py
│   │   │   ├── multimodal_projector/
│   │   │   │   ├── builder.py
│   │   │   │   └── pooler_projector.py
│   │   │   ├── multimodal_resampler/
│   │   │   │   ├── builder.py
│   │   │   │   ├── masked_drop.py
│   │   │   │   ├── perceiver.py
│   │   │   │   ├── qformer.py
│   │   │   │   └── spatial_pool.py
│   │   │   └── utils.py
│   │   ├── train/
│   │   │   ├── llama_flash_attn_monkey_patch.py
│   │   │   ├── llava_trainer.py
│   │   │   ├── train.py
│   │   │   ├── train_dpo.py
│   │   │   └── train_mem.py
│   │   └── utils.py
│   ├── niah_requirements.txt
│   ├── tmp/
│   │   └── git_placeholder
│   ├── vision_niah/
│   │   ├── data/
│   │   │   ├── haystack_embeddings/
│   │   │   │   └── git_placeholder
│   │   │   ├── haystack_videos/
│   │   │   │   └── git_placeholder
│   │   │   ├── needle_embeddings/
│   │   │   │   └── git_placeholder
│   │   │   └── source_data/
│   │   │       ├── git_placeholder
│   │   │       └── niah-coco-singlehop_20.json
│   │   ├── data_multi/
│   │   │   ├── needle_embeddings/
│   │   │   │   └── git_placeholder
│   │   │   └── source_data/
│   │   │       ├── git_placeholder
│   │   │       └── niah-coco-multihop-100.json
│   │   ├── flash_eval_xtuner_multi.sh
│   │   ├── flash_eval_xtuner_single.sh
│   │   ├── log/
│   │   │   ├── s1/
│   │   │   │   └── git_placeholder
│   │   │   ├── s2/
│   │   │   │   └── git_placeholder
│   │   │   └── s3/
│   │   │       └── git_placeholder
│   │   ├── longva_eval_xtuner_multi.sh
│   │   ├── longva_eval_xtuner_single.sh
│   │   ├── model_weights/
│   │   │   └── git_placeholder
│   │   ├── multi_eval_vision_niah.py
│   │   ├── multi_produce_needle_embedding.py
│   │   ├── niah_output_multi/
│   │   │   └── git_placeholder
│   │   ├── niah_output_single/
│   │   │   └── git_placeholder
│   │   ├── produce_haystack_embedding.py
│   │   ├── single_eval_vision_niah.py
│   │   └── single_produce_needle_embedding.py
│   └── xtuner/
│       ├── __init__.py
│       ├── _lite/
│       │   ├── __init__.py
│       │   ├── accelerate/
│       │   │   ├── __init__.py
│       │   │   ├── dispatches/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── _attention.py
│       │   │   │   ├── _fused/
│       │   │   │   │   ├── __init__.py
│       │   │   │   │   ├── layer_norm.py
│       │   │   │   │   ├── rms_norm.py
│       │   │   │   │   └── rotary.py
│       │   │   │   ├── clip.py
│       │   │   │   ├── internlm2.py
│       │   │   │   ├── llama.py
│       │   │   │   └── qwen2.py
│       │   │   ├── generate.py
│       │   │   ├── lora.py
│       │   │   └── packed.py
│       │   ├── auto.py
│       │   ├── chat/
│       │   │   ├── __init__.py
│       │   │   ├── backends/
│       │   │   │   └── __init__.py
│       │   │   ├── messages/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── base.py
│       │   │   │   └── chat.py
│       │   │   └── templates/
│       │   │       ├── __init__.py
│       │   │       ├── chat.py
│       │   │       └── hybrid.py
│       │   ├── datasets/
│       │   │   ├── __init__.py
│       │   │   ├── cache.py
│       │   │   ├── format.py
│       │   │   ├── llava.py
│       │   │   ├── load.py
│       │   │   ├── pretrain.py
│       │   │   ├── text.py
│       │   │   └── tokenize.py
│       │   ├── modelings/
│       │   │   ├── __init__.py
│       │   │   ├── internlm2/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── configuration_internlm2.py
│       │   │   │   └── modeling_internlm2.py
│       │   │   └── llava/
│       │   │       ├── __init__.py
│       │   │       ├── configuration_internlm2.py
│       │   │       ├── configuration_llava.py
│       │   │       ├── modeling_internlm2.py
│       │   │       ├── modeling_llava.py
│       │   │       └── processing_llava.py
│       │   ├── parallel/
│       │   │   ├── __init__.py
│       │   │   ├── comm.py
│       │   │   ├── fsdp/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── checkpointing.py
│       │   │   │   ├── lazy.py
│       │   │   │   ├── precision.py
│       │   │   │   └── wrap.py
│       │   │   ├── logger.py
│       │   │   ├── plans/
│       │   │   │   └── internlm2.py
│       │   │   ├── sampler.py
│       │   │   ├── sequence/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── attention.py
│       │   │   │   ├── data_collate.py
│       │   │   │   ├── ops.py
│       │   │   │   └── reduce_loss.py
│       │   │   └── setup.py
│       │   └── yunchang/
│       │       ├── __init__.py
│       │       ├── comm/
│       │       │   ├── __init__.py
│       │       │   ├── all_to_all.py
│       │       │   └── extract_local.py
│       │       ├── globals.py
│       │       ├── hybrid/
│       │       │   ├── __init__.py
│       │       │   ├── async_attn_layer.py
│       │       │   ├── attn_layer.py
│       │       │   └── utils.py
│       │       ├── ring/
│       │       │   ├── __init__.py
│       │       │   ├── llama3_flash_attn_varlen.py
│       │       │   ├── ring_flash_attn.py
│       │       │   ├── ring_flash_attn_varlen.py
│       │       │   ├── stripe_flash_attn.py
│       │       │   ├── triton_utils.py
│       │       │   ├── utils.py
│       │       │   ├── zigzag_ring_flash_attn.py
│       │       │   └── zigzag_ring_flash_attn_varlen.py
│       │       └── ulysses/
│       │           ├── __init__.py
│       │           └── attn_layer.py
│       ├── apis/
│       │   ├── __init__.py
│       │   ├── datasets/
│       │   │   ├── __init__.py
│       │   │   ├── alpaca.py
│       │   │   ├── arxiv.py
│       │   │   ├── code_alpaca.py
│       │   │   ├── colorist.py
│       │   │   ├── lawyer.py
│       │   │   ├── medical.py
│       │   │   ├── moss_003_sft.py
│       │   │   ├── oasst1.py
│       │   │   ├── open_orca.py
│       │   │   ├── sql.py
│       │   │   ├── tiny_codes.py
│       │   │   └── wizardlm.py
│       │   ├── model.py
│       │   └── training_args.py
│       ├── configs/
│       │   ├── __init__.py
│       │   ├── baichuan/
│       │   │   ├── baichuan2_13b_base/
│       │   │   │   ├── baichuan2_13b_base_qlora_alpaca_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_alpaca_zh_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_code_alpaca_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_colorist_e5.py
│       │   │   │   ├── baichuan2_13b_base_qlora_lawyer_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_oasst1_512_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_oasst1_e3.py
│       │   │   │   ├── baichuan2_13b_base_qlora_open_platypus_e3.py
│       │   │   │   └── baichuan2_13b_base_qlora_sql_e3.py
│       │   │   ├── baichuan2_13b_chat/
│       │   │   │   ├── baichuan2_13b_chat_qlora_alpaca_e3.py
│       │   │   │   ├── baichuan2_13b_chat_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── baichuan2_13b_chat_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── baichuan2_13b_chat_qlora_alpaca_zh_e3.py
│       │   │   │   ├── baichuan2_13b_chat_qlora_code_alpaca_e3.py
│       │   │   │   ├── baichuan2_13b_chat_qlora_lawyer_e3.py
│       │   │   │   ├── baichuan2_13b_chat_qlora_oasst1_512_e3.py
│       │   │   │   ├── baichuan2_13b_chat_qlora_oasst1_e3.py
│       │   │   │   └── baichuan2_13b_chat_qlora_open_platypus_e3.py
│       │   │   ├── baichuan2_7b_base/
│       │   │   │   ├── baichuan2_7b_base_qlora_alpaca_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_alpaca_zh_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_code_alpaca_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_colorist_e5.py
│       │   │   │   ├── baichuan2_7b_base_qlora_lawyer_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_oasst1_512_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_oasst1_e3.py
│       │   │   │   ├── baichuan2_7b_base_qlora_open_platypus_e3.py
│       │   │   │   └── baichuan2_7b_base_qlora_sql_e3.py
│       │   │   ├── baichuan2_7b_chat/
│       │   │   │   ├── baichuan2_7b_chat_qlora_alpaca_e3.py
│       │   │   │   ├── baichuan2_7b_chat_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── baichuan2_7b_chat_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── baichuan2_7b_chat_qlora_alpaca_zh_e3.py
│       │   │   │   ├── baichuan2_7b_chat_qlora_code_alpaca_e3.py
│       │   │   │   ├── baichuan2_7b_chat_qlora_lawyer_e3.py
│       │   │   │   ├── baichuan2_7b_chat_qlora_oasst1_512_e3.py
│       │   │   │   ├── baichuan2_7b_chat_qlora_oasst1_e3.py
│       │   │   │   └── baichuan2_7b_chat_qlora_open_platypus_e3.py
│       │   │   ├── baichuan_13b_base/
│       │   │   │   ├── baichuan_13b_base_qlora_alpaca_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_alpaca_zh_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_code_alpaca_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_colorist_e5.py
│       │   │   │   ├── baichuan_13b_base_qlora_lawyer_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_medical_e1.py
│       │   │   │   ├── baichuan_13b_base_qlora_moss_sft_all_e1.py
│       │   │   │   ├── baichuan_13b_base_qlora_moss_sft_all_e2_gpu8.py
│       │   │   │   ├── baichuan_13b_base_qlora_moss_sft_plugins_e1.py
│       │   │   │   ├── baichuan_13b_base_qlora_oasst1_512_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_oasst1_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_open_platypus_e3.py
│       │   │   │   ├── baichuan_13b_base_qlora_openorca_e1.py
│       │   │   │   ├── baichuan_13b_base_qlora_sql_e3.py
│       │   │   │   └── baichuan_13b_base_qlora_tiny_codes_e1.py
│       │   │   ├── baichuan_13b_chat/
│       │   │   │   ├── baichuan_13b_chat_qlora_alpaca_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_alpaca_zh_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_code_alpaca_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_colorist_e5.py
│       │   │   │   ├── baichuan_13b_chat_qlora_lawyer_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_medical_e1.py
│       │   │   │   ├── baichuan_13b_chat_qlora_oasst1_512_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_oasst1_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_open_platypus_e3.py
│       │   │   │   ├── baichuan_13b_chat_qlora_openorca_e1.py
│       │   │   │   ├── baichuan_13b_chat_qlora_sql_e3.py
│       │   │   │   └── baichuan_13b_chat_qlora_tiny_codes_e1.py
│       │   │   └── baichuan_7b/
│       │   │       ├── baichuan_7b_qlora_alpaca_e3.py
│       │   │       ├── baichuan_7b_qlora_alpaca_enzh_e3.py
│       │   │       ├── baichuan_7b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │       ├── baichuan_7b_qlora_alpaca_zh_e3.py
│       │   │       ├── baichuan_7b_qlora_arxiv_gentitle_e3.py
│       │   │       ├── baichuan_7b_qlora_code_alpaca_e3.py
│       │   │       ├── baichuan_7b_qlora_colorist_e5.py
│       │   │       ├── baichuan_7b_qlora_lawyer_e3.py
│       │   │       ├── baichuan_7b_qlora_medical_e1.py
│       │   │       ├── baichuan_7b_qlora_moss_sft_all_e1.py
│       │   │       ├── baichuan_7b_qlora_moss_sft_all_e2_gpu8.py
│       │   │       ├── baichuan_7b_qlora_moss_sft_plugins_e1.py
│       │   │       ├── baichuan_7b_qlora_oasst1_512_e3.py
│       │   │       ├── baichuan_7b_qlora_oasst1_e3.py
│       │   │       ├── baichuan_7b_qlora_open_platypus_e3.py
│       │   │       ├── baichuan_7b_qlora_openorca_e1.py
│       │   │       ├── baichuan_7b_qlora_sql_e3.py
│       │   │       └── baichuan_7b_qlora_tiny_codes_e1.py
│       │   ├── chatglm/
│       │   │   ├── chatglm2_6b/
│       │   │   │   ├── chatglm2_6b_qlora_alpaca_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_alpaca_zh_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_code_alpaca_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_colorist_e5.py
│       │   │   │   ├── chatglm2_6b_qlora_lawyer_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_medical_e1.py
│       │   │   │   ├── chatglm2_6b_qlora_oasst1_512_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_oasst1_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_open_platypus_e3.py
│       │   │   │   ├── chatglm2_6b_qlora_openorca_e1.py
│       │   │   │   ├── chatglm2_6b_qlora_sql_e3.py
│       │   │   │   └── chatglm2_6b_qlora_tiny_codes_e1.py
│       │   │   ├── chatglm3_6b/
│       │   │   │   ├── chatglm3_6b_qlora_alpaca_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_alpaca_zh_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_code_alpaca_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_colorist_e5.py
│       │   │   │   ├── chatglm3_6b_qlora_lawyer_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_medical_e1.py
│       │   │   │   ├── chatglm3_6b_qlora_oasst1_512_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_oasst1_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_open_platypus_e3.py
│       │   │   │   ├── chatglm3_6b_qlora_openorca_e1.py
│       │   │   │   ├── chatglm3_6b_qlora_sql_e3.py
│       │   │   │   └── chatglm3_6b_qlora_tiny_codes_e1.py
│       │   │   └── chatglm3_6b_base/
│       │   │       ├── chatglm3_6b_base_qlora_alpaca_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_alpaca_enzh_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_alpaca_enzh_oasst1_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_alpaca_zh_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_arxiv_gentitle_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_code_alpaca_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_colorist_e5.py
│       │   │       ├── chatglm3_6b_base_qlora_lawyer_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_medical_e1.py
│       │   │       ├── chatglm3_6b_base_qlora_oasst1_512_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_oasst1_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_open_platypus_e3.py
│       │   │       ├── chatglm3_6b_base_qlora_openorca_e1.py
│       │   │       ├── chatglm3_6b_base_qlora_sql_e3.py
│       │   │       └── chatglm3_6b_base_qlora_tiny_codes_e1.py
│       │   ├── cohere/
│       │   │   ├── README.md
│       │   │   └── cohere_104b/
│       │   │       └── cohere_100b_128k_sp32.py
│       │   ├── custom_dataset/
│       │   │   ├── pretrain/
│       │   │   │   ├── baichuan/
│       │   │   │   │   ├── baichuan2_13b_base_full_custom_pretrain_e1.py
│       │   │   │   │   └── baichuan2_7b_base_full_custom_pretrain_e1.py
│       │   │   │   ├── chatglm/
│       │   │   │   │   ├── chatglm2_6b_full_custom_pretrain_e1.py
│       │   │   │   │   └── chatglm3_6b_full_custom_pretrain_e1.py
│       │   │   │   ├── deepseek/
│       │   │   │   │   └── deepseek_moe_16b_base_full_custom_pretrain_e1.py
│       │   │   │   ├── gemma/
│       │   │   │   │   ├── gemma_2b_full_custom_pretrain_e1.py
│       │   │   │   │   └── gemma_7b_full_custom_pretrain_e1.py
│       │   │   │   ├── internlm/
│       │   │   │   │   ├── internlm2_1_8b_full_custom_pretrain_e1.py
│       │   │   │   │   ├── internlm2_20b_full_custom_pretrain_e1.py
│       │   │   │   │   └── internlm2_7b_full_custom_pretrain_e1.py
│       │   │   │   ├── llama/
│       │   │   │   │   ├── llama2_70b_full_custom_pretrain_e1.py
│       │   │   │   │   └── llama2_7b_full_custom_pretrain_e1.py
│       │   │   │   ├── mistral/
│       │   │   │   │   └── mistral_7b_full_custom_pretrain_e1.py
│       │   │   │   ├── mixtral/
│       │   │   │   │   └── mixtral_8x7b_full_custom_pretrain_e1.py
│       │   │   │   ├── qwen/
│       │   │   │   │   ├── qwen1_5_0_5b_full_custom_pretrain_e1.py
│       │   │   │   │   ├── qwen1_5_14b_full_custom_pretrain_e1.py
│       │   │   │   │   ├── qwen1_5_1_8b_full_custom_pretrain_e1.py
│       │   │   │   │   ├── qwen1_5_4b_full_custom_pretrain_e1.py
│       │   │   │   │   ├── qwen1_5_72b_full_custom_pretrain_e1.py
│       │   │   │   │   ├── qwen1_5_7b_full_custom_pretrain_e1.py
│       │   │   │   │   ├── qwen_1_8b_full_custom_pretrain_e1.py
│       │   │   │   │   ├── qwen_72b_full_custom_pretrain_e1.py
│       │   │   │   │   └── qwen_7b_full_custom_pretrain_e1.py
│       │   │   │   ├── starcoder/
│       │   │   │   │   └── starcoder_full_custom_pretrain_e1.py
│       │   │   │   ├── yi/
│       │   │   │   │   ├── yi_34b_full_custom_pretrain_e1.py
│       │   │   │   │   └── yi_6b_full_custom_pretrain_e1.py
│       │   │   │   └── zephyr/
│       │   │   │       └── zephyr_7b_beta_full_custom_pretrain_e1.py
│       │   │   └── sft/
│       │   │       ├── baichuan/
│       │   │       │   ├── baichuan2_13b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── baichuan2_7b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── baichuan_13b_chat_qlora_custom_sft_e1.py
│       │   │       │   └── baichuan_7b_qlora_custom_sft_e1.py
│       │   │       ├── chatglm/
│       │   │       │   ├── chatglm2_6b_qlora_custom_sft_e1.py
│       │   │       │   └── chatglm3_6b_qlora_custom_sft_e1.py
│       │   │       ├── deepseek/
│       │   │       │   ├── deepseek_moe_16b_chat_qlora_custom_sft_e1.py
│       │   │       │   └── deepseekcoder_6_7b_instruct_qlora_custom_sft_e1.py
│       │   │       ├── gemma/
│       │   │       │   ├── gemma_2b_it_qlora_custom_sft_e1.py
│       │   │       │   ├── gemma_2b_qlora_custom_sft_e1.py
│       │   │       │   ├── gemma_7b_it_qlora_custom_sft_e1.py
│       │   │       │   └── gemma_7b_qlora_custom_sft_e1.py
│       │   │       ├── internlm/
│       │   │       │   ├── internlm2_chat_1_8b_qlora_custom_sft_e1.py
│       │   │       │   ├── internlm2_chat_20b_qlora_custom_sft_e1.py
│       │   │       │   └── internlm2_chat_7b_qlora_custom_sft_e1.py
│       │   │       ├── llama/
│       │   │       │   ├── llama2_70b_qlora_custom_sft_e1.py
│       │   │       │   └── llama2_7b_chat_qlora_custom_sft_e1.py
│       │   │       ├── mistral/
│       │   │       │   └── mistral_7b_full_finetune_custom_sft_e1.py
│       │   │       ├── mixtral/
│       │   │       │   └── mixtral_8x7b_instruct_qlora_custom_sft_e1.py
│       │   │       ├── qwen/
│       │   │       │   ├── qwen1_5_0_5b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── qwen1_5_14b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── qwen1_5_1_8b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── qwen1_5_4b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── qwen1_5_72b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── qwen1_5_7b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── qwen_1_8b_chat_qlora_custom_sft_e1.py
│       │   │       │   ├── qwen_72b_qlora_custom_sft_e1.py
│       │   │       │   └── qwen_7b_chat_qlora_custom_sft_e1.py
│       │   │       ├── starcoder/
│       │   │       │   └── starcoder_qlora_custom_sft_e1.py
│       │   │       ├── yi/
│       │   │       │   ├── yi_34b_qlora_custom_sft_e1.py
│       │   │       │   └── yi_6b_qlora_custom_sft_e1.py
│       │   │       └── zephyr/
│       │   │           └── zephyr_7b_beta_qlora_custom_sft_e1.py
│       │   ├── deepseek/
│       │   │   ├── README.md
│       │   │   ├── deepseek_coder_6_7b_base/
│       │   │   │   └── deepseek_coder_6_7b_base_qlora_code_alpaca_e3.py
│       │   │   ├── deepseek_coder_6_7b_instruct/
│       │   │   │   └── deepseekcoder_6_7b_instruct_qlora_code_alpaca_e3.py
│       │   │   ├── deepseek_moe_16b_base/
│       │   │   │   ├── deepseek_moe_16b_base_full_oasst1_e3.py
│       │   │   │   └── deepseek_moe_16b_base_qlora_oasst1_e3.py
│       │   │   ├── deepseek_moe_16b_chat/
│       │   │   │   ├── deepseek_moe_16b_chat_full_oasst1_e3.py
│       │   │   │   └── deepseek_moe_16b_chat_qlora_oasst1_e3.py
│       │   │   ├── deepseek_v2_chat/
│       │   │   │   └── deepseek_v2_chat_full_alpaca_e3.py
│       │   │   └── deepseek_v2_lite_chat/
│       │   │       ├── deepseek_v2_lite_chat_full_alpaca_e3.py
│       │   │       └── deepseek_v2_lite_chat_full_alpaca_e3_32k_varlen.py
│       │   ├── deepspeed/
│       │   │   ├── deepspeed_zero1.json
│       │   │   ├── deepspeed_zero2.json
│       │   │   ├── deepspeed_zero2_offload.json
│       │   │   ├── deepspeed_zero3.json
│       │   │   └── deepspeed_zero3_offload.json
│       │   ├── dpo/
│       │   │   ├── internlm/
│       │   │   │   ├── internlm2_chat_1_8b_dpo_full.py
│       │   │   │   ├── internlm2_chat_1_8b_dpo_full_varlenattn.py
│       │   │   │   ├── internlm2_chat_1_8b_dpo_full_varlenattn_jsonl_dataset.py
│       │   │   │   └── internlm2_chat_7b_dpo_qlora_varlenattn.py
│       │   │   └── llama/
│       │   │       └── llama3_8b_instruct_dpo_qlora_varlenattn.py
│       │   ├── gemma/
│       │   │   ├── gemma_2b/
│       │   │   │   ├── gemma_2b_full_alpaca_e3.py
│       │   │   │   └── gemma_2b_qlora_alpaca_e3.py
│       │   │   ├── gemma_2b_it/
│       │   │   │   ├── gemma_2b_it_full_alpaca_e3.py
│       │   │   │   └── gemma_2b_it_qlora_alpaca_e3.py
│       │   │   ├── gemma_7b/
│       │   │   │   ├── gemma_7b_full_alpaca_e3.py
│       │   │   │   └── gemma_7b_qlora_alpaca_e3.py
│       │   │   └── gemma_7b_it/
│       │   │       ├── gemma_7b_it_full_alpaca_e3.py
│       │   │       └── gemma_7b_it_qlora_alpaca_e3.py
│       │   ├── internlm/
│       │   │   ├── internlm2_1_8b/
│       │   │   │   ├── internlm2_1_8b_full_alpaca_e3.py
│       │   │   │   └── internlm2_1_8b_qlora_alpaca_e3.py
│       │   │   ├── internlm2_20b/
│       │   │   │   ├── internlm2_20b_full_finetune_custom_dataset_e1.py
│       │   │   │   ├── internlm2_20b_qlora_alpaca_e3.py
│       │   │   │   ├── internlm2_20b_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── internlm2_20b_qlora_code_alpaca_e3.py
│       │   │   │   ├── internlm2_20b_qlora_colorist_e5.py
│       │   │   │   ├── internlm2_20b_qlora_lawyer_e3.py
│       │   │   │   ├── internlm2_20b_qlora_msagent_react_e3_gpu8.py
│       │   │   │   ├── internlm2_20b_qlora_oasst1_512_e3.py
│       │   │   │   ├── internlm2_20b_qlora_oasst1_e3.py
│       │   │   │   └── internlm2_20b_qlora_sql_e3.py
│       │   │   ├── internlm2_7b/
│       │   │   │   ├── internlm2_7b_full_finetune_custom_dataset_e1.py
│       │   │   │   ├── internlm2_7b_full_finetune_custom_dataset_e1_sequence_parallel_4.py
│       │   │   │   ├── internlm2_7b_qlora_alpaca_e3.py
│       │   │   │   ├── internlm2_7b_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── internlm2_7b_qlora_code_alpaca_e3.py
│       │   │   │   ├── internlm2_7b_qlora_colorist_e5.py
│       │   │   │   ├── internlm2_7b_qlora_json_e3.py
│       │   │   │   ├── internlm2_7b_qlora_lawyer_e3.py
│       │   │   │   ├── internlm2_7b_qlora_msagent_react_e3_gpu8.py
│       │   │   │   ├── internlm2_7b_qlora_oasst1_512_e3.py
│       │   │   │   ├── internlm2_7b_qlora_oasst1_e3.py
│       │   │   │   ├── internlm2_7b_qlora_sql_e3.py
│       │   │   │   ├── internlm2_7b_w_internevo_dataset.py
│       │   │   │   ├── internlm2_7b_w_tokenized_dataset.py
│       │   │   │   └── internlm2_7b_w_untokenized_dataset.py
│       │   │   ├── internlm2_chat_1_8b/
│       │   │   │   ├── internlm2_chat_1_8b_full_alpaca_e3.py
│       │   │   │   └── internlm2_chat_1_8b_qlora_alpaca_e3.py
│       │   │   ├── internlm2_chat_20b/
│       │   │   │   ├── internlm2_chat_20b_full_finetune_custom_dataset_e1.py
│       │   │   │   ├── internlm2_chat_20b_qlora_alpaca_e3.py
│       │   │   │   ├── internlm2_chat_20b_qlora_code_alpaca_e3.py
│       │   │   │   ├── internlm2_chat_20b_qlora_lawyer_e3.py
│       │   │   │   ├── internlm2_chat_20b_qlora_oasst1_512_e3.py
│       │   │   │   └── internlm2_chat_20b_qlora_oasst1_e3.py
│       │   │   ├── internlm2_chat_7b/
│       │   │   │   ├── internlm2_chat_7b_full_finetune_custom_dataset_e1.py
│       │   │   │   ├── internlm2_chat_7b_qlora_alpaca_e3.py
│       │   │   │   ├── internlm2_chat_7b_qlora_code_alpaca_e3.py
│       │   │   │   ├── internlm2_chat_7b_qlora_lawyer_e3.py
│       │   │   │   ├── internlm2_chat_7b_qlora_oasst1_512_e3.py
│       │   │   │   └── internlm2_chat_7b_qlora_oasst1_e3.py
│       │   │   ├── internlm_20b/
│       │   │   │   ├── internlm_20b_qlora_alpaca_e3.py
│       │   │   │   ├── internlm_20b_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── internlm_20b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── internlm_20b_qlora_alpaca_zh_e3.py
│       │   │   │   ├── internlm_20b_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── internlm_20b_qlora_code_alpaca_e3.py
│       │   │   │   ├── internlm_20b_qlora_colorist_e5.py
│       │   │   │   ├── internlm_20b_qlora_lawyer_e3.py
│       │   │   │   ├── internlm_20b_qlora_msagent_react_e3_gpu8.py
│       │   │   │   ├── internlm_20b_qlora_oasst1_512_e3.py
│       │   │   │   ├── internlm_20b_qlora_oasst1_e3.py
│       │   │   │   ├── internlm_20b_qlora_open_platypus_e3.py
│       │   │   │   └── internlm_20b_qlora_sql_e3.py
│       │   │   ├── internlm_7b/
│       │   │   │   ├── internlm_7b_full_alpaca_e3.py
│       │   │   │   ├── internlm_7b_full_alpaca_enzh_e3.py
│       │   │   │   ├── internlm_7b_full_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── internlm_7b_full_alpaca_zh_e3.py
│       │   │   │   ├── internlm_7b_full_intern_repo_dataset_template.py
│       │   │   │   ├── internlm_7b_full_oasst1_e3.py
│       │   │   │   ├── internlm_7b_qlora_alpaca_e3.py
│       │   │   │   ├── internlm_7b_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── internlm_7b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── internlm_7b_qlora_alpaca_zh_e3.py
│       │   │   │   ├── internlm_7b_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── internlm_7b_qlora_code_alpaca_e3.py
│       │   │   │   ├── internlm_7b_qlora_colorist_e5.py
│       │   │   │   ├── internlm_7b_qlora_json_e3.py
│       │   │   │   ├── internlm_7b_qlora_lawyer_e3.py
│       │   │   │   ├── internlm_7b_qlora_medical_e1.py
│       │   │   │   ├── internlm_7b_qlora_moss_sft_all_e1.py
│       │   │   │   ├── internlm_7b_qlora_moss_sft_all_e2_gpu8.py
│       │   │   │   ├── internlm_7b_qlora_moss_sft_plugins_e1.py
│       │   │   │   ├── internlm_7b_qlora_msagent_react_e3_gpu8.py
│       │   │   │   ├── internlm_7b_qlora_oasst1_512_e3.py
│       │   │   │   ├── internlm_7b_qlora_oasst1_e3.py
│       │   │   │   ├── internlm_7b_qlora_oasst1_e3_hf.py
│       │   │   │   ├── internlm_7b_qlora_oasst1_mmlu_e3.py
│       │   │   │   ├── internlm_7b_qlora_open_platypus_e3.py
│       │   │   │   ├── internlm_7b_qlora_openorca_e1.py
│       │   │   │   ├── internlm_7b_qlora_sql_e3.py
│       │   │   │   └── internlm_7b_qlora_tiny_codes_e1.py
│       │   │   ├── internlm_chat_20b/
│       │   │   │   ├── internlm_chat_20b_qlora_alpaca_e3.py
│       │   │   │   ├── internlm_chat_20b_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── internlm_chat_20b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── internlm_chat_20b_qlora_alpaca_zh_e3.py
│       │   │   │   ├── internlm_chat_20b_qlora_code_alpaca_e3.py
│       │   │   │   ├── internlm_chat_20b_qlora_lawyer_e3.py
│       │   │   │   ├── internlm_chat_20b_qlora_oasst1_512_e3.py
│       │   │   │   ├── internlm_chat_20b_qlora_oasst1_e3.py
│       │   │   │   └── internlm_chat_20b_qlora_open_platypus_e3.py
│       │   │   └── internlm_chat_7b/
│       │   │       ├── internlm_chat_7b_qlora_alpaca_e3.py
│       │   │       ├── internlm_chat_7b_qlora_alpaca_enzh_e3.py
│       │   │       ├── internlm_chat_7b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │       ├── internlm_chat_7b_qlora_alpaca_zh_e3.py
│       │   │       ├── internlm_chat_7b_qlora_arxiv_gentitle_e3.py
│       │   │       ├── internlm_chat_7b_qlora_code_alpaca_e3.py
│       │   │       ├── internlm_chat_7b_qlora_colorist_e5.py
│       │   │       ├── internlm_chat_7b_qlora_lawyer_e3.py
│       │   │       ├── internlm_chat_7b_qlora_medical_e1.py
│       │   │       ├── internlm_chat_7b_qlora_oasst1_512_e3.py
│       │   │       ├── internlm_chat_7b_qlora_oasst1_e3.py
│       │   │       ├── internlm_chat_7b_qlora_open_platypus_e3.py
│       │   │       ├── internlm_chat_7b_qlora_openorca_e1.py
│       │   │       ├── internlm_chat_7b_qlora_sql_e3.py
│       │   │       └── internlm_chat_7b_qlora_tiny_codes_e1.py
│       │   ├── llama/
│       │   │   ├── llama2_70b/
│       │   │   │   ├── llama2_70b_full_wizardlm_e1.py
│       │   │   │   ├── llama2_70b_int8_lora_open_platypus_e1.py
│       │   │   │   ├── llama2_70b_int8_lora_open_platypus_e1_hf.py
│       │   │   │   ├── llama2_70b_qlora_open_platypus_e1.py
│       │   │   │   └── llama2_70b_qlora_open_platypus_e1_hf.py
│       │   │   ├── llama2_7b/
│       │   │   │   ├── llama2_7b_full_pgbooks_400iters_sp1.py
│       │   │   │   ├── llama2_7b_full_pgbooks_400iters_sp4.py
│       │   │   │   ├── llama2_7b_full_wizardlm_e1.py
│       │   │   │   ├── llama2_7b_qlora_alpaca_e3.py
│       │   │   │   ├── llama2_7b_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── llama2_7b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── llama2_7b_qlora_alpaca_zh_e3.py
│       │   │   │   ├── llama2_7b_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── llama2_7b_qlora_code_alpaca_e3.py
│       │   │   │   ├── llama2_7b_qlora_colorist_e5.py
│       │   │   │   ├── llama2_7b_qlora_lawyer_e3.py
│       │   │   │   ├── llama2_7b_qlora_medical_e1.py
│       │   │   │   ├── llama2_7b_qlora_moss_sft_all_e1.py
│       │   │   │   ├── llama2_7b_qlora_moss_sft_all_e2_gpu8.py
│       │   │   │   ├── llama2_7b_qlora_moss_sft_plugins_e1.py
│       │   │   │   ├── llama2_7b_qlora_msagent_react_e3_gpu8.py
│       │   │   │   ├── llama2_7b_qlora_oasst1_512_e3.py
│       │   │   │   ├── llama2_7b_qlora_oasst1_e3.py
│       │   │   │   ├── llama2_7b_qlora_open_platypus_e3.py
│       │   │   │   ├── llama2_7b_qlora_openorca_e1.py
│       │   │   │   ├── llama2_7b_qlora_sql_e3.py
│       │   │   │   └── llama2_7b_qlora_tiny_codes_e1.py
│       │   │   ├── llama2_7b_chat/
│       │   │   │   ├── llama2_7b_chat_qlora_alpaca_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_alpaca_enzh_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_alpaca_zh_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_arxiv_gentitle_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_code_alpaca_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_colorist_e5.py
│       │   │   │   ├── llama2_7b_chat_qlora_lawyer_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_medical_e1.py
│       │   │   │   ├── llama2_7b_chat_qlora_oasst1_512_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_oasst1_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_open_platypus_e3.py
│       │   │   │   ├── llama2_7b_chat_qlora_openorca_e1.py
│       │   │   │   ├── llama2_7b_chat_qlora_sql_e3.py
│       │   │   │   └── llama2_7b_chat_qlora_tiny_codes_e1.py
│       │   │   ├── llama3_70b_instruct/
│       │   │   │   └── llama3_70b_instruct_qlora_alpaca_e3_2k_gpu8.py
│       │   │   ├── llama3_8b/
│       │   │   │   ├── README.md
│       │   │   │   └── llama3_8b_full_alpaca_e3.py
│       │   │   ├── llama3_8b_instruct/
│       │   │   │   ├── llama3_8b_instruct_full_alpaca_e3.py
│       │   │   │   └── llama3_8b_instruct_qlora_alpaca_e3.py
│       │   │   └── llama_7b/
│       │   │       ├── llama_7b_qlora_alpaca_e3.py
│       │   │       ├── llama_7b_qlora_alpaca_enzh_e3.py
│       │   │       ├── llama_7b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │       ├── llama_7b_qlora_alpaca_zh_e3.py
│       │   │       ├── llama_7b_qlora_arxiv_gentitle_e3.py
│       │   │       ├── llama_7b_qlora_code_alpaca_e3.py
│       │   │       ├── llama_7b_qlora_colorist_e5.py
│       │   │       ├── llama_7b_qlora_lawyer_e3.py
│       │   │       ├── llama_7b_qlora_medical_e1.py
│       │   │       ├── llama_7b_qlora_moss_sft_all_e1.py
│       │   │       ├── llama_7b_qlora_moss_sft_all_e2_gpu8.py
│       │   │       ├── llama_7b_qlora_moss_sft_plugins_e1.py
│       │   │       ├── llama_7b_qlora_oasst1_512_e3.py
│       │   │       ├── llama_7b_qlora_oasst1_e3.py
│       │   │       ├── llama_7b_qlora_open_platypus_e3.py
│       │   │       ├── llama_7b_qlora_openorca_e1.py
│       │   │       ├── llama_7b_qlora_sql_e3.py
│       │   │       └── llama_7b_qlora_tiny_codes_e1.py
│       │   ├── llama_speed_benchmark/
│       │   │   ├── llama2_70b/
│       │   │   │   ├── llama2_70b_full_alpaca_enzh_128k_sp8.py
│       │   │   │   ├── llama2_70b_full_alpaca_enzh_256k_sp16.py
│       │   │   │   ├── llama2_70b_full_alpaca_enzh_32k_sp4.py
│       │   │   │   └── llama2_70b_full_alpaca_enzh_8k_sp1.py
│       │   │   ├── llama2_7b/
│       │   │   │   ├── llama2_7b_full_alpaca_enzh_128k_sp8.py
│       │   │   │   ├── llama2_7b_full_alpaca_enzh_1M_sp16.py
│       │   │   │   ├── llama2_7b_full_alpaca_enzh_256k_sp8.py
│       │   │   │   ├── llama2_7b_full_alpaca_enzh_32k_sp1.py
│       │   │   │   └── llama2_7b_full_alpaca_enzh_8k_sp1.py
│       │   │   └── yi_34b/
│       │   │       ├── yi_34b_200k_full_alpaca_enzh_128k_sp8.py
│       │   │       ├── yi_34b_200k_full_alpaca_enzh_256k_sp8.py
│       │   │       ├── yi_34b_200k_full_alpaca_enzh_32k_sp2.py
│       │   │       └── yi_34b_200k_full_alpaca_enzh_8k_sp1.py
│       │   ├── llava/
│       │   │   ├── README.md
│       │   │   ├── README_zh-CN.md
│       │   │   ├── internlm2_chat_1_8b_clip_vit_large_p14_336/
│       │   │   │   ├── finetune/
│       │   │   │   │   └── llava_internlm2_chat_1_8b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
│       │   │   │   └── pretrain/
│       │   │   │       └── llava_internlm2_chat_1_8b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   │   ├── internlm2_chat_20b_clip_vit_large_p14_336/
│       │   │   │   ├── finetune/
│       │   │   │   │   ├── llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_finetune.py
│       │   │   │   │   └── llava_internlm2_chat_20b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
│       │   │   │   └── pretrain/
│       │   │   │       └── llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   │   ├── internlm2_chat_7b_clip_vit_large_p14_336/
│       │   │   │   ├── finetune/
│       │   │   │   │   ├── llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_finetune.py
│       │   │   │   │   └── llava_internlm2_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
│       │   │   │   └── pretrain/
│       │   │   │       └── llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   │   ├── internlm_chat_7b_clip_vit_large_p14_336/
│       │   │   │   ├── finetune/
│       │   │   │   │   └── llava_internlm_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
│       │   │   │   └── pretrain/
│       │   │   │       └── llava_internlm_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   │   ├── llama3_70b_instruct_clip_vit_large_p14_336/
│       │   │   │   └── pretrain/
│       │   │   │       └── llava_llama3_70b_instruct_quant_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   │   ├── llama3_8b_instruct_clip_vit_large_p14_336/
│       │   │   │   ├── README.md
│       │   │   │   ├── convert_xtuner_weights_to_hf.py
│       │   │   │   ├── convert_xtuner_weights_to_llava.py
│       │   │   │   ├── finetune/
│       │   │   │   │   ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_e1_gpu8_finetune.py
│       │   │   │   │   ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
│       │   │   │   │   ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_lora_e1_gpu8_internvl_finetune.py
│       │   │   │   │   └── llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_e1_gpu1_finetune.py
│       │   │   │   └── pretrain/
│       │   │   │       ├── llava_llama3_8b_instruct_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   │   │       ├── llava_llama3_8b_instruct_clip_vit_large_p14_336_e1_gpu8_sharegpt4v_pretrain.py
│       │   │   │       └── llava_llama3_8b_instruct_quant_clip_vit_large_p14_336_e1_gpu1_pretrain.py
│       │   │   ├── official/
│       │   │   │   ├── llava_v15_13b/
│       │   │   │   │   ├── llava_v15_13b_finetune.py
│       │   │   │   │   ├── llava_v15_13b_finetune_lora.py
│       │   │   │   │   └── llava_v15_13b_pretrain.py
│       │   │   │   └── llava_v15_7b/
│       │   │   │       ├── llava_v15_7b_finetune.py
│       │   │   │       ├── llava_v15_7b_finetune_lora.py
│       │   │   │       └── llava_v15_7b_pretrain.py
│       │   │   ├── phi3_mini_4k_instruct_clip_vit_large_p14_336/
│       │   │   │   ├── README.md
│       │   │   │   ├── convert_phi_to_llama.py
│       │   │   │   ├── convert_xtuner_weights_to_hf.py
│       │   │   │   ├── convert_xtuner_weights_to_llava.py
│       │   │   │   ├── finetune/
│       │   │   │   │   ├── llava_phi3_mini_4k_instruct_full_clip_vit_large_p14_336_e1_gpu8_finetune.py
│       │   │   │   │   └── llava_phi3_mini_4k_instruct_full_clip_vit_large_p14_336_full_e2_gpu8_internvl_finetune.py
│       │   │   │   └── pretrain/
│       │   │   │       ├── llava_phi3_mini_4k_instruct_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   │   │       └── llava_phi3_mini_4k_instruct_clip_vit_large_p14_336_e1_gpu8_sharegpt4v_pretrain.py
│       │   │   ├── vicuna_13b_v15_clip_vit_large_p14_336/
│       │   │   │   ├── finetune/
│       │   │   │   │   └── llava_vicuna_13b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
│       │   │   │   └── pretrain/
│       │   │   │       └── llava_vicuna_13b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   │   └── vicuna_7b_v15_clip_vit_large_p14_336/
│       │   │       ├── finetune/
│       │   │       │   ├── llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
│       │   │       │   └── llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune_refcoco.py
│       │   │       └── pretrain/
│       │   │           └── llava_vicuna_7b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py
│       │   ├── mistral/
│       │   │   ├── mistral_7b_full_finetune_custom_dataset_e1.py
│       │   │   ├── mistral_7b_qlora_skypile_pretrain_e1.py
│       │   │   ├── mistral_7b_w_tokenized_dataset.py
│       │   │   └── mistral_7b_w_untokenized_dataset.py
│       │   ├── mixtral/
│       │   │   ├── README.md
│       │   │   ├── mixtral_8x7b/
│       │   │   │   ├── mixtral_8x7b_full_oasst1_e3.py
│       │   │   │   └── mixtral_8x7b_qlora_oasst1_e3.py
│       │   │   └── mixtral_8x7b_instruct/
│       │   │       ├── mixtral_8x7b_instruct_full_oasst1_e3.py
│       │   │       └── mixtral_8x7b_instruct_qlora_oasst1_e3.py
│       │   ├── orpo/
│       │   │   ├── internlm/
│       │   │   │   ├── internlm2_chat_1_8b_orpo_full.py
│       │   │   │   ├── internlm2_chat_1_8b_orpo_full_varlenattn.py
│       │   │   │   ├── internlm2_chat_1_8b_orpo_full_varlenattn_jsonl_dataset.py
│       │   │   │   └── internlm2_chat_7b_orpo_qlora_varlenattn_ultrafeedback_e5.py
│       │   │   └── llama/
│       │   │       └── llama3_8b_instruct_orpo_qlora_varlenattn_ultrafeedback_e5.py
│       │   ├── phi/
│       │   │   └── phi3/
│       │   │       ├── phi3_mini_128k_instruct_full_alpaca_e3.py
│       │   │       ├── phi3_mini_128k_instruct_qlora_alpaca_e3.py
│       │   │       ├── phi3_mini_4k_instruct_full_alpaca_e3.py
│       │   │       └── phi3_mini_4k_instruct_qlora_alpaca_e3.py
│       │   ├── qwen/
│       │   │   ├── qwen1/
│       │   │   │   ├── qwen_1_8b/
│       │   │   │   │   ├── qwen_1_8b_qlora_alpaca_e3.py
│       │   │   │   │   ├── qwen_1_8b_qlora_alpaca_enzh_e3.py
│       │   │   │   │   ├── qwen_1_8b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   │   ├── qwen_1_8b_qlora_alpaca_zh_e3.py
│       │   │   │   │   └── qwen_1_8b_qlora_code_alpaca_e3.py
│       │   │   │   ├── qwen_1_8b_chat/
│       │   │   │   │   ├── qwen_1_8b_chat_qlora_alpaca_e3.py
│       │   │   │   │   ├── qwen_1_8b_chat_qlora_alpaca_enzh_e3.py
│       │   │   │   │   ├── qwen_1_8b_chat_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   │   ├── qwen_1_8b_chat_qlora_alpaca_zh_e3.py
│       │   │   │   │   └── qwen_1_8b_chat_qlora_code_alpaca_e3.py
│       │   │   │   ├── qwen_72b/
│       │   │   │   │   ├── qwen_72b_qlora_alpaca_e3.py
│       │   │   │   │   ├── qwen_72b_qlora_alpaca_enzh_e3.py
│       │   │   │   │   ├── qwen_72b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   │   ├── qwen_72b_qlora_alpaca_zh_e3.py
│       │   │   │   │   └── qwen_72b_qlora_code_alpaca_e3.py
│       │   │   │   ├── qwen_7b/
│       │   │   │   │   ├── qwen_7b_qlora_alpaca_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_alpaca_enzh_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_alpaca_zh_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_arxiv_gentitle_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_code_alpaca_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_colorist_e5.py
│       │   │   │   │   ├── qwen_7b_qlora_lawyer_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_medical_e1.py
│       │   │   │   │   ├── qwen_7b_qlora_moss_sft_all_e1.py
│       │   │   │   │   ├── qwen_7b_qlora_moss_sft_all_e2_gpu8.py
│       │   │   │   │   ├── qwen_7b_qlora_moss_sft_plugins_e1.py
│       │   │   │   │   ├── qwen_7b_qlora_oasst1_512_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_oasst1_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_open_platypus_e3.py
│       │   │   │   │   ├── qwen_7b_qlora_openorca_e1.py
│       │   │   │   │   ├── qwen_7b_qlora_sql_e3.py
│       │   │   │   │   └── qwen_7b_qlora_tiny_codes_e1.py
│       │   │   │   └── qwen_7b_chat/
│       │   │   │       ├── qwen_7b_chat_qlora_alpaca_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_alpaca_enzh_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_alpaca_enzh_oasst1_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_alpaca_zh_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_arxiv_gentitle_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_code_alpaca_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_colorist_e5.py
│       │   │   │       ├── qwen_7b_chat_qlora_lawyer_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_medical_e1.py
│       │   │   │       ├── qwen_7b_chat_qlora_oasst1_512_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_oasst1_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_open_platypus_e3.py
│       │   │   │       ├── qwen_7b_chat_qlora_openorca_e1.py
│       │   │   │       ├── qwen_7b_chat_qlora_sql_e3.py
│       │   │   │       └── qwen_7b_chat_qlora_tiny_codes_e1.py
│       │   │   └── qwen1_5/
│       │   │       ├── qwen1_5_0_5b/
│       │   │       │   ├── qwen1_5_0_5b_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_0_5b_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_0_5b_chat/
│       │   │       │   ├── qwen1_5_0_5b_chat_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_0_5b_chat_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_110b/
│       │   │       │   ├── qwen1_5_110b_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_110b_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_110b_chat/
│       │   │       │   ├── README.md
│       │   │       │   ├── qwen1_5_110b_chat_full_alpaca_e3.py
│       │   │       │   ├── qwen1_5_110b_chat_qlora_alpaca_e3.py
│       │   │       │   └── qwen1_5_110b_chat_qlora_alpaca_e3_16k_2gpus.py
│       │   │       ├── qwen1_5_14b/
│       │   │       │   ├── qwen1_5_14b_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_14b_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_14b_chat/
│       │   │       │   ├── qwen1_5_14b_chat_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_14b_chat_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_1_8b/
│       │   │       │   ├── qwen1_5_1_8b_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_1_8b_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_1_8b_chat/
│       │   │       │   ├── qwen1_5_1_8b_chat_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_1_8b_chat_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_4b/
│       │   │       │   ├── qwen1_5_4b_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_4b_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_4b_chat/
│       │   │       │   ├── qwen1_5_4b_chat_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_4b_chat_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_72b/
│       │   │       │   ├── qwen1_5_72b_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_72b_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_72b_chat/
│       │   │       │   ├── qwen1_5_72b_chat_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_72b_chat_qlora_alpaca_e3.py
│       │   │       ├── qwen1_5_7b/
│       │   │       │   ├── qwen1_5_7b_full_alpaca_e3.py
│       │   │       │   └── qwen1_5_7b_qlora_alpaca_e3.py
│       │   │       └── qwen1_5_7b_chat/
│       │   │           ├── qwen1_5_7b_chat_full_alpaca_e3.py
│       │   │           └── qwen1_5_7b_chat_qlora_alpaca_e3.py
│       │   ├── qwen_moe/
│       │   │   └── qwen1_5/
│       │   │       └── qwen1_5_moe_a2_7_b_chat/
│       │   │           └── qwen1_5_moe_a2_7_b_chat_full_alpaca_e3.py
│       │   ├── reward_model/
│       │   │   ├── internlm/
│       │   │   │   ├── internlm2_chat_1_8b_reward_full_ultrafeedback.py
│       │   │   │   ├── internlm2_chat_1_8b_reward_full_varlenattn_jsonl_dataset.py
│       │   │   │   ├── internlm2_chat_1_8b_reward_full_varlenattn_ultrafeedback.py
│       │   │   │   └── internlm2_chat_1_8b_reward_qlora_varlenattn_ultrafeedback.py
│       │   │   └── llama/
│       │   │       └── llama3_8b_instruct_reward_full_varlenattn_ultrafeedback.py
│       │   ├── starcoder/
│       │   │   └── starcoder_qlora_stack_exchange_example.py
│       │   ├── yi/
│       │   │   ├── yi_34b/
│       │   │   │   └── yi_34b_qlora_alpaca_enzh_e3.py
│       │   │   └── yi_6b/
│       │   │       └── yi_6b_qlora_alpaca_enzh_e3.py
│       │   └── zephyr/
│       │       └── zephyr_7b_beta_qlora_alpaca_e3.py
│       ├── dataset/
│       │   ├── __init__.py
│       │   ├── collate_fns/
│       │   │   ├── __init__.py
│       │   │   ├── default_collate_fn.py
│       │   │   ├── mmlu_collate_fn.py
│       │   │   └── preference_collate_fn.py
│       │   ├── concat_dataset.py
│       │   ├── huggingface.py
│       │   ├── intern_repo.py
│       │   ├── json_dataset.py
│       │   ├── llava.py
│       │   ├── map_fns/
│       │   │   ├── __init__.py
│       │   │   ├── dataset_map_fns/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── alpaca_map_fn.py
│       │   │   │   ├── alpaca_zh_map_fn.py
│       │   │   │   ├── arxiv_map_fn.py
│       │   │   │   ├── code_alpaca_map_fn.py
│       │   │   │   ├── colors_map_fn.py
│       │   │   │   ├── crime_kg_assitant_map_fn.py
│       │   │   │   ├── default_map_fn.py
│       │   │   │   ├── law_reference_map_fn.py
│       │   │   │   ├── llava_map_fn.py
│       │   │   │   ├── medical_map_fn.py
│       │   │   │   ├── msagent_map_fn.py
│       │   │   │   ├── oasst1_map_fn.py
│       │   │   │   ├── openai_map_fn.py
│       │   │   │   ├── openorca_map_fn.py
│       │   │   │   ├── pretrain_map_fn.py
│       │   │   │   ├── sql_map_fn.py
│       │   │   │   ├── stack_exchange_map_fn.py
│       │   │   │   ├── tiny_codes_map_fn.py
│       │   │   │   └── wizardlm_map_fn.py
│       │   │   └── template_map_fn.py
│       │   ├── modelscope.py
│       │   ├── moss_sft.py
│       │   ├── preference_dataset.py
│       │   ├── refcoco_json.py
│       │   ├── samplers/
│       │   │   ├── __init__.py
│       │   │   ├── intern_repo.py
│       │   │   └── length_grouped.py
│       │   └── utils.py
│       ├── engine/
│       │   ├── __init__.py
│       │   ├── _strategy/
│       │   │   ├── __init__.py
│       │   │   └── deepspeed.py
│       │   ├── hooks/
│       │   │   ├── __init__.py
│       │   │   ├── dataset_info_hook.py
│       │   │   ├── evaluate_chat_hook.py
│       │   │   ├── hf_checkpoint_hook.py
│       │   │   ├── throughput_hook.py
│       │   │   └── varlen_attn_args_to_messagehub_hook.py
│       │   └── runner/
│       │       ├── __init__.py
│       │       └── loops.py
│       ├── entry_point.py
│       ├── evaluation/
│       │   ├── __init__.py
│       │   └── metrics/
│       │       ├── __init__.py
│       │       ├── mmlu_metric.py
│       │       └── reward_metric.py
│       ├── model/
│       │   ├── __init__.py
│       │   ├── dpo.py
│       │   ├── llava.py
│       │   ├── modules/
│       │   │   ├── __init__.py
│       │   │   ├── dispatch/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── attention.py
│       │   │   │   ├── baichuan.py
│       │   │   │   ├── cohere.py
│       │   │   │   ├── deepseek_v2.py
│       │   │   │   ├── internlm.py
│       │   │   │   ├── internlm2.py
│       │   │   │   ├── llama.py
│       │   │   │   ├── mistral.py
│       │   │   │   ├── phi3.py
│       │   │   │   ├── qwen2.py
│       │   │   │   ├── triton_kernels/
│       │   │   │   │   ├── __init__.py
│       │   │   │   │   ├── layer_norm.py
│       │   │   │   │   ├── rms_norm.py
│       │   │   │   │   └── rotary.py
│       │   │   │   ├── utils.py
│       │   │   │   └── yi.py
│       │   │   └── projector/
│       │   │       ├── __init__.py
│       │   │       ├── configuration_projector.py
│       │   │       └── modeling_projector.py
│       │   ├── orpo.py
│       │   ├── reward.py
│       │   ├── sft.py
│       │   ├── transformers_models/
│       │   │   ├── __init__.py
│       │   │   ├── deepseek_v2/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── configuration_deepseek.py
│       │   │   │   ├── modeling_deepseek.py
│       │   │   │   └── tokenization_deepseek_fast.py
│       │   │   └── mixtral/
│       │   │       ├── __init__.py
│       │   │       ├── configuration_mixtral.py
│       │   │       └── modeling_mixtral.py
│       │   └── utils.py
│       ├── parallel/
│       │   ├── __init__.py
│       │   └── sequence/
│       │       ├── __init__.py
│       │       ├── attention.py
│       │       ├── comm.py
│       │       ├── data_collate.py
│       │       ├── reduce_loss.py
│       │       ├── sampler.py
│       │       └── setup_distributed.py
│       ├── registry.py
│       ├── tools/
│       │   ├── chat.py
│       │   ├── check_custom_dataset.py
│       │   ├── copy_cfg.py
│       │   ├── data_preprocess/
│       │   │   ├── arxiv.py
│       │   │   └── convert_refcoco.py
│       │   ├── eval_refcoco.py
│       │   ├── get_data_order.py
│       │   ├── list_cfg.py
│       │   ├── list_dataset_format.py
│       │   ├── log_dataset.py
│       │   ├── mmbench.py
│       │   ├── model_converters/
│       │   │   ├── merge.py
│       │   │   ├── modeling_internlm2_reward/
│       │   │   │   ├── __init__.py
│       │   │   │   ├── configuration_internlm2.py
│       │   │   │   └── modeling_internlm2.py
│       │   │   ├── pth_to_hf.py
│       │   │   └── split.py
│       │   ├── plugins/
│       │   │   ├── __init__.py
│       │   │   ├── api.py
│       │   │   ├── calculate.py
│       │   │   ├── search.py
│       │   │   └── solve.py
│       │   ├── process_untokenized_datasets.py
│       │   ├── process_untokenized_datasets_legacy.py
│       │   ├── process_untokenized_llava_data.py
│       │   ├── test.py
│       │   ├── tokenize_ftdp_datasets.py
│       │   ├── train.py
│       │   └── utils.py
│       ├── utils/
│       │   ├── __init__.py
│       │   ├── constants.py
│       │   ├── fileio.py
│       │   ├── handle_moe_load_and_save.py
│       │   ├── stop_criteria.py
│       │   ├── templates.py
│       │   └── zero_to_any_dtype.py
│       └── version.py
└── xtuner-train_internvideo2_5/
    ├── .gitignore
    ├── .owners.yml
    ├── .pre-commit-config-zh-cn.yaml
    ├── .pre-commit-config.yaml
    ├── LICENSE
    ├── MANIFEST.in
    ├── README.md
    ├── data/
    │   ├── annotaions/
    │   │   └── ft_data_example.jsonl
    │   └── diy_ft_data.json
    ├── ft_internvideo_2_5.sh
    ├── ft_internvideo_2_5_datapacking.sh
    ├── requirements/
    │   ├── deepspeed.txt
    │   ├── docs.txt
    │   ├── modelscope.txt
    │   └── runtime.txt
    ├── requirements.txt
    ├── setup.cfg
    ├── setup.py
    ├── unify_internvl2_train_r16.py
    └── xtuner/
        ├── __init__.py
        ├── _lite/
        │   ├── __init__.py
        │   ├── accelerate/
        │   │   ├── __init__.py
        │   │   ├── dispatches/
        │   │   │   ├── __init__.py
        │   │   │   ├── _attention.py
        │   │   │   ├── _fused/
        │   │   │   │   ├── __init__.py
        │   │   │   │   ├── layer_norm.py
        │   │   │   │   ├── rms_norm.py
        │   │   │   │   └── rotary.py
        │   │   │   ├── clip.py
        │   │   │   ├── internlm2.py
        │   │   │   ├── internvl2.py
        │   │   │   ├── llama3.py
        │   │   │   ├── new.py
        │   │   │   ├── phi3.py
        │   │   │   ├── qwen2.py
        │   │   │   └── qwen_vl2.py
        │   │   ├── fsdp/
        │   │   │   ├── __init__.py
        │   │   │   ├── checkpointing.py
        │   │   │   ├── clip_grad.py
        │   │   │   ├── lazy.py
        │   │   │   ├── precision.py
        │   │   │   └── wrap.py
        │   │   ├── generate.py
        │   │   ├── lora.py
        │   │   └── packed.py
        │   ├── auto.py
        │   ├── chat/
        │   │   ├── __init__.py
        │   │   ├── backends/
        │   │   │   └── __init__.py
        │   │   ├── messages/
        │   │   │   ├── __init__.py
        │   │   │   ├── base.py
        │   │   │   └── chat.py
        │   │   └── templates/
        │   │       ├── __init__.py
        │   │       ├── chat.py
        │   │       └── hybrid.py
        │   ├── checkpoint.py
        │   ├── datasets/
        │   │   ├── __init__.py
        │   │   ├── dataset_fn.py
        │   │   ├── format.py
        │   │   ├── llava.py
        │   │   ├── load.py
        │   │   ├── load_new.py
        │   │   ├── text.py
        │   │   └── tokenize.py
        │   ├── internvl/
        │   │   ├── __init__.py
        │   │   ├── constants.py
        │   │   ├── conversation.py
        │   │   ├── dataset.py
        │   │   ├── new_dataset.py
        │   │   ├── v1_5/
        │   │   │   ├── configuration_intern_vit.py
        │   │   │   ├── configuration_internvl_chat.py
        │   │   │   ├── configuration_phi3.py
        │   │   │   ├── conversation.py
        │   │   │   ├── modeling_intern_vit.py
        │   │   │   ├── modeling_internvl_chat.py
        │   │   │   └── modeling_phi3.py
        │   │   └── video_utils.py
        │   ├── modelings/
        │   │   ├── __init__.py
        │   │   ├── internlm2/
        │   │   │   ├── __init__.py
        │   │   │   ├── configuration_internlm2.py
        │   │   │   └── modeling_internlm2.py
        │   │   └── model_fn.py
        │   ├── parallel/
        │   │   ├── __init__.py
        │   │   ├── comm.py
        │   │   ├── logger.py
        │   │   ├── new_setup.py
        │   │   ├── plans/
        │   │   │   └── internlm2.py
        │   │   ├── sampler.py
        │   │   ├── sequence/
        │   │   │   ├── __init__.py
        │   │   │   ├── attention.py
        │   │   │   ├── data_collate.py
        │   │   │   ├── ops.py
        │   │   │   └── reduce_loss.py
        │   │   └── setup.py
        │   └── yunchang/
        │       ├── __init__.py
        │       ├── comm/
        │       │   ├── __init__.py
        │       │   ├── all_to_all.py
        │       │   └── extract_local.py
        │       ├── globals.py
        │       ├── hybrid/
        │       │   ├── __init__.py
        │       │   ├── async_attn_layer.py
        │       │   ├── attn_layer.py
        │       │   └── utils.py
        │       ├── ring/
        │       │   ├── __init__.py
        │       │   ├── llama3_flash_attn_varlen.py
        │       │   ├── ring_flash_attn.py
        │       │   ├── ring_flash_attn_varlen.py
        │       │   ├── stripe_flash_attn.py
        │       │   ├── triton_utils.py
        │       │   ├── utils.py
        │       │   ├── zigzag_ring_flash_attn.py
        │       │   └── zigzag_ring_flash_attn_varlen.py
        │       └── ulysses/
        │           ├── __init__.py
        │           └── attn_layer.py
        ├── apis/
        │   ├── __init__.py
        │   ├── datasets/
        │   │   ├── __init__.py
        │   │   ├── alpaca.py
        │   │   ├── arxiv.py
        │   │   ├── code_alpaca.py
        │   │   ├── colorist.py
        │   │   ├── lawyer.py
        │   │   ├── medical.py
        │   │   ├── moss_003_sft.py
        │   │   ├── oasst1.py
        │   │   ├── open_orca.py
        │   │   ├── sql.py
        │   │   ├── tiny_codes.py
        │   │   └── wizardlm.py
        │   ├── model.py
        │   └── training_args.py
        ├── configs/
        │   ├── __init__.py
        │   ├── baichuan/
        │   │   ├── baichuan2_13b_base/
        │   │   │   ├── baichuan2_13b_base_qlora_alpaca_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_alpaca_enzh_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_alpaca_zh_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_code_alpaca_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_colorist_e5.py
        │   │   │   ├── baichuan2_13b_base_qlora_lawyer_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_oasst1_512_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_oasst1_e3.py
        │   │   │   ├── baichuan2_13b_base_qlora_open_platypus_e3.py
        │   │   │   └── baichuan2_13b_base_qlora_sql_e3.py
        │   │   ├── baichuan2_13b_chat/
        │   │   │   ├── baichuan2_13b_chat_qlora_alpaca_e3.py
        │   │   │   ├── baichuan2_13b_chat_qlora_alpaca_enzh_e3.py
        │   │   │   ├── baichuan2_13b_chat_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── baichuan2_13b_chat_qlora_alpaca_zh_e3.py
        │   │   │   ├── baichuan2_13b_chat_qlora_code_alpaca_e3.py
        │   │   │   ├── baichuan2_13b_chat_qlora_lawyer_e3.py
        │   │   │   ├── baichuan2_13b_chat_qlora_oasst1_512_e3.py
        │   │   │   ├── baichuan2_13b_chat_qlora_oasst1_e3.py
        │   │   │   └── baichuan2_13b_chat_qlora_open_platypus_e3.py
        │   │   ├── baichuan2_7b_base/
        │   │   │   ├── baichuan2_7b_base_qlora_alpaca_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_alpaca_enzh_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_alpaca_zh_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_code_alpaca_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_colorist_e5.py
        │   │   │   ├── baichuan2_7b_base_qlora_lawyer_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_oasst1_512_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_oasst1_e3.py
        │   │   │   ├── baichuan2_7b_base_qlora_open_platypus_e3.py
        │   │   │   └── baichuan2_7b_base_qlora_sql_e3.py
        │   │   ├── baichuan2_7b_chat/
        │   │   │   ├── baichuan2_7b_chat_qlora_alpaca_e3.py
        │   │   │   ├── baichuan2_7b_chat_qlora_alpaca_enzh_e3.py
        │   │   │   ├── baichuan2_7b_chat_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── baichuan2_7b_chat_qlora_alpaca_zh_e3.py
        │   │   │   ├── baichuan2_7b_chat_qlora_code_alpaca_e3.py
        │   │   │   ├── baichuan2_7b_chat_qlora_lawyer_e3.py
        │   │   │   ├── baichuan2_7b_chat_qlora_oasst1_512_e3.py
        │   │   │   ├── baichuan2_7b_chat_qlora_oasst1_e3.py
        │   │   │   └── baichuan2_7b_chat_qlora_open_platypus_e3.py
        │   │   ├── baichuan_13b_base/
        │   │   │   ├── baichuan_13b_base_qlora_alpaca_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_alpaca_enzh_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_alpaca_zh_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_code_alpaca_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_colorist_e5.py
        │   │   │   ├── baichuan_13b_base_qlora_lawyer_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_medical_e1.py
        │   │   │   ├── baichuan_13b_base_qlora_moss_sft_all_e1.py
        │   │   │   ├── baichuan_13b_base_qlora_moss_sft_all_e2_gpu8.py
        │   │   │   ├── baichuan_13b_base_qlora_moss_sft_plugins_e1.py
        │   │   │   ├── baichuan_13b_base_qlora_oasst1_512_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_oasst1_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_open_platypus_e3.py
        │   │   │   ├── baichuan_13b_base_qlora_openorca_e1.py
        │   │   │   ├── baichuan_13b_base_qlora_sql_e3.py
        │   │   │   └── baichuan_13b_base_qlora_tiny_codes_e1.py
        │   │   ├── baichuan_13b_chat/
        │   │   │   ├── baichuan_13b_chat_qlora_alpaca_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_alpaca_enzh_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_alpaca_zh_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_code_alpaca_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_colorist_e5.py
        │   │   │   ├── baichuan_13b_chat_qlora_lawyer_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_medical_e1.py
        │   │   │   ├── baichuan_13b_chat_qlora_oasst1_512_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_oasst1_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_open_platypus_e3.py
        │   │   │   ├── baichuan_13b_chat_qlora_openorca_e1.py
        │   │   │   ├── baichuan_13b_chat_qlora_sql_e3.py
        │   │   │   └── baichuan_13b_chat_qlora_tiny_codes_e1.py
        │   │   └── baichuan_7b/
        │   │       ├── baichuan_7b_qlora_alpaca_e3.py
        │   │       ├── baichuan_7b_qlora_alpaca_enzh_e3.py
        │   │       ├── baichuan_7b_qlora_alpaca_enzh_oasst1_e3.py
        │   │       ├── baichuan_7b_qlora_alpaca_zh_e3.py
        │   │       ├── baichuan_7b_qlora_arxiv_gentitle_e3.py
        │   │       ├── baichuan_7b_qlora_code_alpaca_e3.py
        │   │       ├── baichuan_7b_qlora_colorist_e5.py
        │   │       ├── baichuan_7b_qlora_lawyer_e3.py
        │   │       ├── baichuan_7b_qlora_medical_e1.py
        │   │       ├── baichuan_7b_qlora_moss_sft_all_e1.py
        │   │       ├── baichuan_7b_qlora_moss_sft_all_e2_gpu8.py
        │   │       ├── baichuan_7b_qlora_moss_sft_plugins_e1.py
        │   │       ├── baichuan_7b_qlora_oasst1_512_e3.py
        │   │       ├── baichuan_7b_qlora_oasst1_e3.py
        │   │       ├── baichuan_7b_qlora_open_platypus_e3.py
        │   │       ├── baichuan_7b_qlora_openorca_e1.py
        │   │       ├── baichuan_7b_qlora_sql_e3.py
        │   │       └── baichuan_7b_qlora_tiny_codes_e1.py
        │   ├── chatglm/
        │   │   ├── chatglm2_6b/
        │   │   │   ├── chatglm2_6b_qlora_alpaca_e3.py
        │   │   │   ├── chatglm2_6b_qlora_alpaca_enzh_e3.py
        │   │   │   ├── chatglm2_6b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── chatglm2_6b_qlora_alpaca_zh_e3.py
        │   │   │   ├── chatglm2_6b_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── chatglm2_6b_qlora_code_alpaca_e3.py
        │   │   │   ├── chatglm2_6b_qlora_colorist_e5.py
        │   │   │   ├── chatglm2_6b_qlora_lawyer_e3.py
        │   │   │   ├── chatglm2_6b_qlora_medical_e1.py
        │   │   │   ├── chatglm2_6b_qlora_oasst1_512_e3.py
        │   │   │   ├── chatglm2_6b_qlora_oasst1_e3.py
        │   │   │   ├── chatglm2_6b_qlora_open_platypus_e3.py
        │   │   │   ├── chatglm2_6b_qlora_openorca_e1.py
        │   │   │   ├── chatglm2_6b_qlora_sql_e3.py
        │   │   │   └── chatglm2_6b_qlora_tiny_codes_e1.py
        │   │   ├── chatglm3_6b/
        │   │   │   ├── chatglm3_6b_qlora_alpaca_e3.py
        │   │   │   ├── chatglm3_6b_qlora_alpaca_enzh_e3.py
        │   │   │   ├── chatglm3_6b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── chatglm3_6b_qlora_alpaca_zh_e3.py
        │   │   │   ├── chatglm3_6b_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── chatglm3_6b_qlora_code_alpaca_e3.py
        │   │   │   ├── chatglm3_6b_qlora_colorist_e5.py
        │   │   │   ├── chatglm3_6b_qlora_lawyer_e3.py
        │   │   │   ├── chatglm3_6b_qlora_medical_e1.py
        │   │   │   ├── chatglm3_6b_qlora_oasst1_512_e3.py
        │   │   │   ├── chatglm3_6b_qlora_oasst1_e3.py
        │   │   │   ├── chatglm3_6b_qlora_open_platypus_e3.py
        │   │   │   ├── chatglm3_6b_qlora_openorca_e1.py
        │   │   │   ├── chatglm3_6b_qlora_sql_e3.py
        │   │   │   └── chatglm3_6b_qlora_tiny_codes_e1.py
        │   │   └── chatglm3_6b_base/
        │   │       ├── chatglm3_6b_base_qlora_alpaca_e3.py
        │   │       ├── chatglm3_6b_base_qlora_alpaca_enzh_e3.py
        │   │       ├── chatglm3_6b_base_qlora_alpaca_enzh_oasst1_e3.py
        │   │       ├── chatglm3_6b_base_qlora_alpaca_zh_e3.py
        │   │       ├── chatglm3_6b_base_qlora_arxiv_gentitle_e3.py
        │   │       ├── chatglm3_6b_base_qlora_code_alpaca_e3.py
        │   │       ├── chatglm3_6b_base_qlora_colorist_e5.py
        │   │       ├── chatglm3_6b_base_qlora_lawyer_e3.py
        │   │       ├── chatglm3_6b_base_qlora_medical_e1.py
        │   │       ├── chatglm3_6b_base_qlora_oasst1_512_e3.py
        │   │       ├── chatglm3_6b_base_qlora_oasst1_e3.py
        │   │       ├── chatglm3_6b_base_qlora_open_platypus_e3.py
        │   │       ├── chatglm3_6b_base_qlora_openorca_e1.py
        │   │       ├── chatglm3_6b_base_qlora_sql_e3.py
        │   │       └── chatglm3_6b_base_qlora_tiny_codes_e1.py
        │   ├── cohere/
        │   │   ├── README.md
        │   │   └── cohere_104b/
        │   │       └── cohere_100b_128k_sp32.py
        │   ├── custom_dataset/
        │   │   ├── pretrain/
        │   │   │   ├── baichuan/
        │   │   │   │   ├── baichuan2_13b_base_full_custom_pretrain_e1.py
        │   │   │   │   └── baichuan2_7b_base_full_custom_pretrain_e1.py
        │   │   │   ├── chatglm/
        │   │   │   │   ├── chatglm2_6b_full_custom_pretrain_e1.py
        │   │   │   │   └── chatglm3_6b_full_custom_pretrain_e1.py
        │   │   │   ├── deepseek/
        │   │   │   │   └── deepseek_moe_16b_base_full_custom_pretrain_e1.py
        │   │   │   ├── gemma/
        │   │   │   │   ├── gemma_2b_full_custom_pretrain_e1.py
        │   │   │   │   └── gemma_7b_full_custom_pretrain_e1.py
        │   │   │   ├── internlm/
        │   │   │   │   ├── internlm2_1_8b_full_custom_pretrain_e1.py
        │   │   │   │   ├── internlm2_20b_full_custom_pretrain_e1.py
        │   │   │   │   └── internlm2_7b_full_custom_pretrain_e1.py
        │   │   │   ├── llama/
        │   │   │   │   ├── llama2_70b_full_custom_pretrain_e1.py
        │   │   │   │   └── llama2_7b_full_custom_pretrain_e1.py
        │   │   │   ├── mistral/
        │   │   │   │   └── mistral_7b_full_custom_pretrain_e1.py
        │   │   │   ├── mixtral/
        │   │   │   │   └── mixtral_8x7b_full_custom_pretrain_e1.py
        │   │   │   ├── qwen/
        │   │   │   │   ├── qwen1_5_0_5b_full_custom_pretrain_e1.py
        │   │   │   │   ├── qwen1_5_14b_full_custom_pretrain_e1.py
        │   │   │   │   ├── qwen1_5_1_8b_full_custom_pretrain_e1.py
        │   │   │   │   ├── qwen1_5_4b_full_custom_pretrain_e1.py
        │   │   │   │   ├── qwen1_5_72b_full_custom_pretrain_e1.py
        │   │   │   │   ├── qwen1_5_7b_full_custom_pretrain_e1.py
        │   │   │   │   ├── qwen_1_8b_full_custom_pretrain_e1.py
        │   │   │   │   ├── qwen_72b_full_custom_pretrain_e1.py
        │   │   │   │   └── qwen_7b_full_custom_pretrain_e1.py
        │   │   │   ├── starcoder/
        │   │   │   │   └── starcoder_full_custom_pretrain_e1.py
        │   │   │   ├── yi/
        │   │   │   │   ├── yi_34b_full_custom_pretrain_e1.py
        │   │   │   │   └── yi_6b_full_custom_pretrain_e1.py
        │   │   │   └── zephyr/
        │   │   │       └── zephyr_7b_beta_full_custom_pretrain_e1.py
        │   │   └── sft/
        │   │       ├── baichuan/
        │   │       │   ├── baichuan2_13b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── baichuan2_7b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── baichuan_13b_chat_qlora_custom_sft_e1.py
        │   │       │   └── baichuan_7b_qlora_custom_sft_e1.py
        │   │       ├── chatglm/
        │   │       │   ├── chatglm2_6b_qlora_custom_sft_e1.py
        │   │       │   └── chatglm3_6b_qlora_custom_sft_e1.py
        │   │       ├── deepseek/
        │   │       │   ├── deepseek_moe_16b_chat_qlora_custom_sft_e1.py
        │   │       │   └── deepseekcoder_6_7b_instruct_qlora_custom_sft_e1.py
        │   │       ├── gemma/
        │   │       │   ├── gemma_2b_it_qlora_custom_sft_e1.py
        │   │       │   ├── gemma_2b_qlora_custom_sft_e1.py
        │   │       │   ├── gemma_7b_it_qlora_custom_sft_e1.py
        │   │       │   └── gemma_7b_qlora_custom_sft_e1.py
        │   │       ├── internlm/
        │   │       │   ├── internlm2_chat_1_8b_qlora_custom_sft_e1.py
        │   │       │   ├── internlm2_chat_20b_qlora_custom_sft_e1.py
        │   │       │   └── internlm2_chat_7b_qlora_custom_sft_e1.py
        │   │       ├── llama/
        │   │       │   ├── llama2_70b_qlora_custom_sft_e1.py
        │   │       │   └── llama2_7b_chat_qlora_custom_sft_e1.py
        │   │       ├── mistral/
        │   │       │   └── mistral_7b_full_finetune_custom_sft_e1.py
        │   │       ├── mixtral/
        │   │       │   └── mixtral_8x7b_instruct_qlora_custom_sft_e1.py
        │   │       ├── qwen/
        │   │       │   ├── qwen1_5_0_5b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── qwen1_5_14b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── qwen1_5_1_8b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── qwen1_5_4b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── qwen1_5_72b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── qwen1_5_7b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── qwen_1_8b_chat_qlora_custom_sft_e1.py
        │   │       │   ├── qwen_72b_qlora_custom_sft_e1.py
        │   │       │   └── qwen_7b_chat_qlora_custom_sft_e1.py
        │   │       ├── starcoder/
        │   │       │   └── starcoder_qlora_custom_sft_e1.py
        │   │       ├── yi/
        │   │       │   ├── yi_34b_qlora_custom_sft_e1.py
        │   │       │   └── yi_6b_qlora_custom_sft_e1.py
        │   │       └── zephyr/
        │   │           └── zephyr_7b_beta_qlora_custom_sft_e1.py
        │   ├── deepseek/
        │   │   ├── README.md
        │   │   ├── deepseek_coder_6_7b_base/
        │   │   │   └── deepseek_coder_6_7b_base_qlora_code_alpaca_e3.py
        │   │   ├── deepseek_coder_6_7b_instruct/
        │   │   │   └── deepseekcoder_6_7b_instruct_qlora_code_alpaca_e3.py
        │   │   ├── deepseek_moe_16b_base/
        │   │   │   ├── deepseek_moe_16b_base_full_oasst1_e3.py
        │   │   │   └── deepseek_moe_16b_base_qlora_oasst1_e3.py
        │   │   ├── deepseek_moe_16b_chat/
        │   │   │   ├── deepseek_moe_16b_chat_full_oasst1_e3.py
        │   │   │   └── deepseek_moe_16b_chat_qlora_oasst1_e3.py
        │   │   ├── deepseek_v2_chat/
        │   │   │   └── deepseek_v2_chat_full_alpaca_e3.py
        │   │   └── deepseek_v2_lite_chat/
        │   │       ├── deepseek_v2_lite_chat_full_alpaca_e3.py
        │   │       └── deepseek_v2_lite_chat_full_alpaca_e3_32k_varlen.py
        │   ├── deepspeed/
        │   │   ├── deepspeed_zero1.json
        │   │   ├── deepspeed_zero2.json
        │   │   ├── deepspeed_zero2_offload.json
        │   │   ├── deepspeed_zero3.json
        │   │   └── deepspeed_zero3_offload.json
        │   ├── dpo/
        │   │   ├── internlm/
        │   │   │   ├── internlm2_chat_1_8b_dpo_full.py
        │   │   │   ├── internlm2_chat_1_8b_dpo_full_varlenattn.py
        │   │   │   ├── internlm2_chat_1_8b_dpo_full_varlenattn_jsonl_dataset.py
        │   │   │   └── internlm2_chat_7b_dpo_qlora_varlenattn.py
        │   │   └── llama/
        │   │       └── llama3_8b_instruct_dpo_qlora_varlenattn.py
        │   ├── gemma/
        │   │   ├── gemma_2b/
        │   │   │   ├── gemma_2b_full_alpaca_e3.py
        │   │   │   └── gemma_2b_qlora_alpaca_e3.py
        │   │   ├── gemma_2b_it/
        │   │   │   ├── gemma_2b_it_full_alpaca_e3.py
        │   │   │   └── gemma_2b_it_qlora_alpaca_e3.py
        │   │   ├── gemma_7b/
        │   │   │   ├── gemma_7b_full_alpaca_e3.py
        │   │   │   └── gemma_7b_qlora_alpaca_e3.py
        │   │   └── gemma_7b_it/
        │   │       ├── gemma_7b_it_full_alpaca_e3.py
        │   │       └── gemma_7b_it_qlora_alpaca_e3.py
        │   ├── internlm/
        │   │   ├── internlm2_1_8b/
        │   │   │   ├── internlm2_1_8b_full_alpaca_e3.py
        │   │   │   └── internlm2_1_8b_qlora_alpaca_e3.py
        │   │   ├── internlm2_20b/
        │   │   │   ├── internlm2_20b_full_finetune_custom_dataset_e1.py
        │   │   │   ├── internlm2_20b_qlora_alpaca_e3.py
        │   │   │   ├── internlm2_20b_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── internlm2_20b_qlora_code_alpaca_e3.py
        │   │   │   ├── internlm2_20b_qlora_colorist_e5.py
        │   │   │   ├── internlm2_20b_qlora_lawyer_e3.py
        │   │   │   ├── internlm2_20b_qlora_msagent_react_e3_gpu8.py
        │   │   │   ├── internlm2_20b_qlora_oasst1_512_e3.py
        │   │   │   ├── internlm2_20b_qlora_oasst1_e3.py
        │   │   │   └── internlm2_20b_qlora_sql_e3.py
        │   │   ├── internlm2_7b/
        │   │   │   ├── internlm2_7b_full_finetune_custom_dataset_e1.py
        │   │   │   ├── internlm2_7b_full_finetune_custom_dataset_e1_sequence_parallel_4.py
        │   │   │   ├── internlm2_7b_qlora_alpaca_e3.py
        │   │   │   ├── internlm2_7b_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── internlm2_7b_qlora_code_alpaca_e3.py
        │   │   │   ├── internlm2_7b_qlora_colorist_e5.py
        │   │   │   ├── internlm2_7b_qlora_json_e3.py
        │   │   │   ├── internlm2_7b_qlora_lawyer_e3.py
        │   │   │   ├── internlm2_7b_qlora_msagent_react_e3_gpu8.py
        │   │   │   ├── internlm2_7b_qlora_oasst1_512_e3.py
        │   │   │   ├── internlm2_7b_qlora_oasst1_e3.py
        │   │   │   ├── internlm2_7b_qlora_sql_e3.py
        │   │   │   ├── internlm2_7b_w_internevo_dataset.py
        │   │   │   ├── internlm2_7b_w_tokenized_dataset.py
        │   │   │   └── internlm2_7b_w_untokenized_dataset.py
        │   │   ├── internlm2_chat_1_8b/
        │   │   │   ├── internlm2_chat_1_8b_full_alpaca_e3.py
        │   │   │   └── internlm2_chat_1_8b_qlora_alpaca_e3.py
        │   │   ├── internlm2_chat_20b/
        │   │   │   ├── internlm2_chat_20b_full_finetune_custom_dataset_e1.py
        │   │   │   ├── internlm2_chat_20b_qlora_alpaca_e3.py
        │   │   │   ├── internlm2_chat_20b_qlora_code_alpaca_e3.py
        │   │   │   ├── internlm2_chat_20b_qlora_lawyer_e3.py
        │   │   │   ├── internlm2_chat_20b_qlora_oasst1_512_e3.py
        │   │   │   └── internlm2_chat_20b_qlora_oasst1_e3.py
        │   │   ├── internlm2_chat_7b/
        │   │   │   ├── internlm2_chat_7b_full_finetune_custom_dataset_e1.py
        │   │   │   ├── internlm2_chat_7b_qlora_alpaca_e3.py
        │   │   │   ├── internlm2_chat_7b_qlora_code_alpaca_e3.py
        │   │   │   ├── internlm2_chat_7b_qlora_lawyer_e3.py
        │   │   │   ├── internlm2_chat_7b_qlora_oasst1_512_e3.py
        │   │   │   └── internlm2_chat_7b_qlora_oasst1_e3.py
        │   │   ├── internlm_20b/
        │   │   │   ├── internlm_20b_qlora_alpaca_e3.py
        │   │   │   ├── internlm_20b_qlora_alpaca_enzh_e3.py
        │   │   │   ├── internlm_20b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── internlm_20b_qlora_alpaca_zh_e3.py
        │   │   │   ├── internlm_20b_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── internlm_20b_qlora_code_alpaca_e3.py
        │   │   │   ├── internlm_20b_qlora_colorist_e5.py
        │   │   │   ├── internlm_20b_qlora_lawyer_e3.py
        │   │   │   ├── internlm_20b_qlora_msagent_react_e3_gpu8.py
        │   │   │   ├── internlm_20b_qlora_oasst1_512_e3.py
        │   │   │   ├── internlm_20b_qlora_oasst1_e3.py
        │   │   │   ├── internlm_20b_qlora_open_platypus_e3.py
        │   │   │   └── internlm_20b_qlora_sql_e3.py
        │   │   ├── internlm_7b/
        │   │   │   ├── internlm_7b_full_alpaca_e3.py
        │   │   │   ├── internlm_7b_full_alpaca_enzh_e3.py
        │   │   │   ├── internlm_7b_full_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── internlm_7b_full_alpaca_zh_e3.py
        │   │   │   ├── internlm_7b_full_intern_repo_dataset_template.py
        │   │   │   ├── internlm_7b_full_oasst1_e3.py
        │   │   │   ├── internlm_7b_qlora_alpaca_e3.py
        │   │   │   ├── internlm_7b_qlora_alpaca_enzh_e3.py
        │   │   │   ├── internlm_7b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── internlm_7b_qlora_alpaca_zh_e3.py
        │   │   │   ├── internlm_7b_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── internlm_7b_qlora_code_alpaca_e3.py
        │   │   │   ├── internlm_7b_qlora_colorist_e5.py
        │   │   │   ├── internlm_7b_qlora_json_e3.py
        │   │   │   ├── internlm_7b_qlora_lawyer_e3.py
        │   │   │   ├── internlm_7b_qlora_medical_e1.py
        │   │   │   ├── internlm_7b_qlora_moss_sft_all_e1.py
        │   │   │   ├── internlm_7b_qlora_moss_sft_all_e2_gpu8.py
        │   │   │   ├── internlm_7b_qlora_moss_sft_plugins_e1.py
        │   │   │   ├── internlm_7b_qlora_msagent_react_e3_gpu8.py
        │   │   │   ├── internlm_7b_qlora_oasst1_512_e3.py
        │   │   │   ├── internlm_7b_qlora_oasst1_e3.py
        │   │   │   ├── internlm_7b_qlora_oasst1_e3_hf.py
        │   │   │   ├── internlm_7b_qlora_oasst1_mmlu_e3.py
        │   │   │   ├── internlm_7b_qlora_open_platypus_e3.py
        │   │   │   ├── internlm_7b_qlora_openorca_e1.py
        │   │   │   ├── internlm_7b_qlora_sql_e3.py
        │   │   │   └── internlm_7b_qlora_tiny_codes_e1.py
        │   │   ├── internlm_chat_20b/
        │   │   │   ├── internlm_chat_20b_qlora_alpaca_e3.py
        │   │   │   ├── internlm_chat_20b_qlora_alpaca_enzh_e3.py
        │   │   │   ├── internlm_chat_20b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── internlm_chat_20b_qlora_alpaca_zh_e3.py
        │   │   │   ├── internlm_chat_20b_qlora_code_alpaca_e3.py
        │   │   │   ├── internlm_chat_20b_qlora_lawyer_e3.py
        │   │   │   ├── internlm_chat_20b_qlora_oasst1_512_e3.py
        │   │   │   ├── internlm_chat_20b_qlora_oasst1_e3.py
        │   │   │   └── internlm_chat_20b_qlora_open_platypus_e3.py
        │   │   └── internlm_chat_7b/
        │   │       ├── internlm_chat_7b_qlora_alpaca_e3.py
        │   │       ├── internlm_chat_7b_qlora_alpaca_enzh_e3.py
        │   │       ├── internlm_chat_7b_qlora_alpaca_enzh_oasst1_e3.py
        │   │       ├── internlm_chat_7b_qlora_alpaca_zh_e3.py
        │   │       ├── internlm_chat_7b_qlora_arxiv_gentitle_e3.py
        │   │       ├── internlm_chat_7b_qlora_code_alpaca_e3.py
        │   │       ├── internlm_chat_7b_qlora_colorist_e5.py
        │   │       ├── internlm_chat_7b_qlora_lawyer_e3.py
        │   │       ├── internlm_chat_7b_qlora_medical_e1.py
        │   │       ├── internlm_chat_7b_qlora_oasst1_512_e3.py
        │   │       ├── internlm_chat_7b_qlora_oasst1_e3.py
        │   │       ├── internlm_chat_7b_qlora_open_platypus_e3.py
        │   │       ├── internlm_chat_7b_qlora_openorca_e1.py
        │   │       ├── internlm_chat_7b_qlora_sql_e3.py
        │   │       └── internlm_chat_7b_qlora_tiny_codes_e1.py
        │   ├── llama/
        │   │   ├── llama2_70b/
        │   │   │   ├── llama2_70b_full_wizardlm_e1.py
        │   │   │   ├── llama2_70b_int8_lora_open_platypus_e1.py
        │   │   │   ├── llama2_70b_int8_lora_open_platypus_e1_hf.py
        │   │   │   ├── llama2_70b_qlora_open_platypus_e1.py
        │   │   │   └── llama2_70b_qlora_open_platypus_e1_hf.py
        │   │   ├── llama2_7b/
        │   │   │   ├── llama2_7b_full_pgbooks_400iters_sp1.py
        │   │   │   ├── llama2_7b_full_pgbooks_400iters_sp4.py
        │   │   │   ├── llama2_7b_full_wizardlm_e1.py
        │   │   │   ├── llama2_7b_qlora_alpaca_e3.py
        │   │   │   ├── llama2_7b_qlora_alpaca_enzh_e3.py
        │   │   │   ├── llama2_7b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── llama2_7b_qlora_alpaca_zh_e3.py
        │   │   │   ├── llama2_7b_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── llama2_7b_qlora_code_alpaca_e3.py
        │   │   │   ├── llama2_7b_qlora_colorist_e5.py
        │   │   │   ├── llama2_7b_qlora_lawyer_e3.py
        │   │   │   ├── llama2_7b_qlora_medical_e1.py
        │   │   │   ├── llama2_7b_qlora_moss_sft_all_e1.py
        │   │   │   ├── llama2_7b_qlora_moss_sft_all_e2_gpu8.py
        │   │   │   ├── llama2_7b_qlora_moss_sft_plugins_e1.py
        │   │   │   ├── llama2_7b_qlora_msagent_react_e3_gpu8.py
        │   │   │   ├── llama2_7b_qlora_oasst1_512_e3.py
        │   │   │   ├── llama2_7b_qlora_oasst1_e3.py
        │   │   │   ├── llama2_7b_qlora_open_platypus_e3.py
        │   │   │   ├── llama2_7b_qlora_openorca_e1.py
        │   │   │   ├── llama2_7b_qlora_sql_e3.py
        │   │   │   └── llama2_7b_qlora_tiny_codes_e1.py
        │   │   ├── llama2_7b_chat/
        │   │   │   ├── llama2_7b_chat_qlora_alpaca_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_alpaca_enzh_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_alpaca_zh_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_arxiv_gentitle_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_code_alpaca_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_colorist_e5.py
        │   │   │   ├── llama2_7b_chat_qlora_lawyer_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_medical_e1.py
        │   │   │   ├── llama2_7b_chat_qlora_oasst1_512_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_oasst1_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_open_platypus_e3.py
        │   │   │   ├── llama2_7b_chat_qlora_openorca_e1.py
        │   │   │   ├── llama2_7b_chat_qlora_sql_e3.py
        │   │   │   └── llama2_7b_chat_qlora_tiny_codes_e1.py
        │   │   ├── llama3_70b_instruct/
        │   │   │   └── llama3_70b_instruct_qlora_alpaca_e3_2k_gpu8.py
        │   │   ├── llama3_8b/
        │   │   │   ├── README.md
        │   │   │   └── llama3_8b_full_alpaca_e3.py
        │   │   ├── llama3_8b_instruct/
        │   │   │   ├── llama3_8b_instruct_full_alpaca_e3.py
        │   │   │   └── llama3_8b_instruct_qlora_alpaca_e3.py
        │   │   └── llama_7b/
        │   │       ├── llama_7b_qlora_alpaca_e3.py
        │   │       ├── llama_7b_qlora_alpaca_enzh_e3.py
        │   │       ├── llama_7b_qlora_alpaca_enzh_oasst1_e3.py
        │   │       ├── llama_7b_qlora_alpaca_zh_e3.py
        │   │       ├── llama_7b_qlora_arxiv_gentitle_e3.py
        │   │       ├── llama_7b_qlora_code_alpaca_e3.py
        │   │       ├── llama_7b_qlora_colorist_e5.py
        │   │       ├── llama_7b_qlora_lawyer_e3.py
        │   │       ├── llama_7b_qlora_medical_e1.py
        │   │       ├── llama_7b_qlora_moss_sft_all_e1.py
        │   │       ├── llama_7b_qlora_moss_sft_all_e2_gpu8.py
        │   │       ├── llama_7b_qlora_moss_sft_plugins_e1.py
        │   │       ├── llama_7b_qlora_oasst1_512_e3.py
        │   │       ├── llama_7b_qlora_oasst1_e3.py
        │   │       ├── llama_7b_qlora_open_platypus_e3.py
        │   │       ├── llama_7b_qlora_openorca_e1.py
        │   │       ├── llama_7b_qlora_sql_e3.py
        │   │       └── llama_7b_qlora_tiny_codes_e1.py
        │   ├── llama_speed_benchmark/
        │   │   ├── llama2_70b/
        │   │   │   ├── llama2_70b_full_alpaca_enzh_128k_sp8.py
        │   │   │   ├── llama2_70b_full_alpaca_enzh_256k_sp16.py
        │   │   │   ├── llama2_70b_full_alpaca_enzh_32k_sp4.py
        │   │   │   └── llama2_70b_full_alpaca_enzh_8k_sp1.py
        │   │   ├── llama2_7b/
        │   │   │   ├── llama2_7b_full_alpaca_enzh_128k_sp8.py
        │   │   │   ├── llama2_7b_full_alpaca_enzh_1M_sp16.py
        │   │   │   ├── llama2_7b_full_alpaca_enzh_256k_sp8.py
        │   │   │   ├── llama2_7b_full_alpaca_enzh_32k_sp1.py
        │   │   │   └── llama2_7b_full_alpaca_enzh_8k_sp1.py
        │   │   └── yi_34b/
        │   │       ├── yi_34b_200k_full_alpaca_enzh_128k_sp8.py
        │   │       ├── yi_34b_200k_full_alpaca_enzh_256k_sp8.py
        │   │       ├── yi_34b_200k_full_alpaca_enzh_32k_sp2.py
        │   │       └── yi_34b_200k_full_alpaca_enzh_8k_sp1.py
        │   ├── llava/
        │   │   ├── README.md
        │   │   ├── README_zh-CN.md
        │   │   ├── internlm2_chat_1_8b_clip_vit_large_p14_336/
        │   │   │   ├── finetune/
        │   │   │   │   └── llava_internlm2_chat_1_8b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
        │   │   │   └── pretrain/
        │   │   │       └── llava_internlm2_chat_1_8b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   │   ├── internlm2_chat_20b_clip_vit_large_p14_336/
        │   │   │   ├── finetune/
        │   │   │   │   ├── llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_finetune.py
        │   │   │   │   └── llava_internlm2_chat_20b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
        │   │   │   └── pretrain/
        │   │   │       └── llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   │   ├── internlm2_chat_7b_clip_vit_large_p14_336/
        │   │   │   ├── finetune/
        │   │   │   │   ├── llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_finetune.py
        │   │   │   │   └── llava_internlm2_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
        │   │   │   └── pretrain/
        │   │   │       └── llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   │   ├── internlm_chat_7b_clip_vit_large_p14_336/
        │   │   │   ├── finetune/
        │   │   │   │   └── llava_internlm_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
        │   │   │   └── pretrain/
        │   │   │       └── llava_internlm_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   │   ├── llama3_70b_instruct_clip_vit_large_p14_336/
        │   │   │   └── pretrain/
        │   │   │       └── llava_llama3_70b_instruct_quant_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   │   ├── llama3_8b_instruct_clip_vit_large_p14_336/
        │   │   │   ├── README.md
        │   │   │   ├── convert_xtuner_weights_to_hf.py
        │   │   │   ├── convert_xtuner_weights_to_llava.py
        │   │   │   ├── finetune/
        │   │   │   │   ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_e1_gpu8_finetune.py
        │   │   │   │   ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
        │   │   │   │   ├── llava_llama3_8b_instruct_full_clip_vit_large_p14_336_lora_e1_gpu8_internvl_finetune.py
        │   │   │   │   └── llava_llama3_8b_instruct_qlora_clip_vit_large_p14_336_e1_gpu1_finetune.py
        │   │   │   └── pretrain/
        │   │   │       ├── llava_llama3_8b_instruct_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   │   │       ├── llava_llama3_8b_instruct_clip_vit_large_p14_336_e1_gpu8_sharegpt4v_pretrain.py
        │   │   │       └── llava_llama3_8b_instruct_quant_clip_vit_large_p14_336_e1_gpu1_pretrain.py
        │   │   ├── official/
        │   │   │   ├── llava_v15_13b/
        │   │   │   │   ├── llava_v15_13b_finetune.py
        │   │   │   │   ├── llava_v15_13b_finetune_lora.py
        │   │   │   │   └── llava_v15_13b_pretrain.py
        │   │   │   └── llava_v15_7b/
        │   │   │       ├── llava_v15_7b_finetune.py
        │   │   │       ├── llava_v15_7b_finetune_lora.py
        │   │   │       └── llava_v15_7b_pretrain.py
        │   │   ├── phi3_mini_4k_instruct_clip_vit_large_p14_336/
        │   │   │   ├── README.md
        │   │   │   ├── convert_phi_to_llama.py
        │   │   │   ├── convert_xtuner_weights_to_hf.py
        │   │   │   ├── convert_xtuner_weights_to_llava.py
        │   │   │   ├── finetune/
        │   │   │   │   ├── llava_phi3_mini_4k_instruct_full_clip_vit_large_p14_336_e1_gpu8_finetune.py
        │   │   │   │   └── llava_phi3_mini_4k_instruct_full_clip_vit_large_p14_336_full_e2_gpu8_internvl_finetune.py
        │   │   │   └── pretrain/
        │   │   │       ├── llava_phi3_mini_4k_instruct_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   │   │       └── llava_phi3_mini_4k_instruct_clip_vit_large_p14_336_e1_gpu8_sharegpt4v_pretrain.py
        │   │   ├── vicuna_13b_v15_clip_vit_large_p14_336/
        │   │   │   ├── finetune/
        │   │   │   │   └── llava_vicuna_13b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
        │   │   │   └── pretrain/
        │   │   │       └── llava_vicuna_13b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   │   └── vicuna_7b_v15_clip_vit_large_p14_336/
        │   │       ├── finetune/
        │   │       │   ├── llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
        │   │       │   └── llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune_refcoco.py
        │   │       └── pretrain/
        │   │           └── llava_vicuna_7b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py
        │   ├── mistral/
        │   │   ├── mistral_7b_full_finetune_custom_dataset_e1.py
        │   │   ├── mistral_7b_qlora_skypile_pretrain_e1.py
        │   │   ├── mistral_7b_w_tokenized_dataset.py
        │   │   └── mistral_7b_w_untokenized_dataset.py
        │   ├── mixtral/
        │   │   ├── README.md
        │   │   ├── mixtral_8x7b/
        │   │   │   ├── mixtral_8x7b_full_oasst1_e3.py
        │   │   │   └── mixtral_8x7b_qlora_oasst1_e3.py
        │   │   └── mixtral_8x7b_instruct/
        │   │       ├── mixtral_8x7b_instruct_full_oasst1_e3.py
        │   │       └── mixtral_8x7b_instruct_qlora_oasst1_e3.py
        │   ├── orpo/
        │   │   ├── internlm/
        │   │   │   ├── internlm2_chat_1_8b_orpo_full.py
        │   │   │   ├── internlm2_chat_1_8b_orpo_full_varlenattn.py
        │   │   │   ├── internlm2_chat_1_8b_orpo_full_varlenattn_jsonl_dataset.py
        │   │   │   └── internlm2_chat_7b_orpo_qlora_varlenattn_ultrafeedback_e5.py
        │   │   └── llama/
        │   │       └── llama3_8b_instruct_orpo_qlora_varlenattn_ultrafeedback_e5.py
        │   ├── phi/
        │   │   └── phi3/
        │   │       ├── phi3_mini_128k_instruct_full_alpaca_e3.py
        │   │       ├── phi3_mini_128k_instruct_qlora_alpaca_e3.py
        │   │       ├── phi3_mini_4k_instruct_full_alpaca_e3.py
        │   │       └── phi3_mini_4k_instruct_qlora_alpaca_e3.py
        │   ├── qwen/
        │   │   ├── qwen1/
        │   │   │   ├── qwen_1_8b/
        │   │   │   │   ├── qwen_1_8b_qlora_alpaca_e3.py
        │   │   │   │   ├── qwen_1_8b_qlora_alpaca_enzh_e3.py
        │   │   │   │   ├── qwen_1_8b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   │   ├── qwen_1_8b_qlora_alpaca_zh_e3.py
        │   │   │   │   └── qwen_1_8b_qlora_code_alpaca_e3.py
        │   │   │   ├── qwen_1_8b_chat/
        │   │   │   │   ├── qwen_1_8b_chat_qlora_alpaca_e3.py
        │   │   │   │   ├── qwen_1_8b_chat_qlora_alpaca_enzh_e3.py
        │   │   │   │   ├── qwen_1_8b_chat_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   │   ├── qwen_1_8b_chat_qlora_alpaca_zh_e3.py
        │   │   │   │   └── qwen_1_8b_chat_qlora_code_alpaca_e3.py
        │   │   │   ├── qwen_72b/
        │   │   │   │   ├── qwen_72b_qlora_alpaca_e3.py
        │   │   │   │   ├── qwen_72b_qlora_alpaca_enzh_e3.py
        │   │   │   │   ├── qwen_72b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   │   ├── qwen_72b_qlora_alpaca_zh_e3.py
        │   │   │   │   └── qwen_72b_qlora_code_alpaca_e3.py
        │   │   │   ├── qwen_7b/
        │   │   │   │   ├── qwen_7b_qlora_alpaca_e3.py
        │   │   │   │   ├── qwen_7b_qlora_alpaca_enzh_e3.py
        │   │   │   │   ├── qwen_7b_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │   │   ├── qwen_7b_qlora_alpaca_zh_e3.py
        │   │   │   │   ├── qwen_7b_qlora_arxiv_gentitle_e3.py
        │   │   │   │   ├── qwen_7b_qlora_code_alpaca_e3.py
        │   │   │   │   ├── qwen_7b_qlora_colorist_e5.py
        │   │   │   │   ├── qwen_7b_qlora_lawyer_e3.py
        │   │   │   │   ├── qwen_7b_qlora_medical_e1.py
        │   │   │   │   ├── qwen_7b_qlora_moss_sft_all_e1.py
        │   │   │   │   ├── qwen_7b_qlora_moss_sft_all_e2_gpu8.py
        │   │   │   │   ├── qwen_7b_qlora_moss_sft_plugins_e1.py
        │   │   │   │   ├── qwen_7b_qlora_oasst1_512_e3.py
        │   │   │   │   ├── qwen_7b_qlora_oasst1_e3.py
        │   │   │   │   ├── qwen_7b_qlora_open_platypus_e3.py
        │   │   │   │   ├── qwen_7b_qlora_openorca_e1.py
        │   │   │   │   ├── qwen_7b_qlora_sql_e3.py
        │   │   │   │   └── qwen_7b_qlora_tiny_codes_e1.py
        │   │   │   └── qwen_7b_chat/
        │   │   │       ├── qwen_7b_chat_qlora_alpaca_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_alpaca_enzh_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_alpaca_enzh_oasst1_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_alpaca_zh_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_arxiv_gentitle_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_code_alpaca_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_colorist_e5.py
        │   │   │       ├── qwen_7b_chat_qlora_lawyer_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_medical_e1.py
        │   │   │       ├── qwen_7b_chat_qlora_oasst1_512_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_oasst1_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_open_platypus_e3.py
        │   │   │       ├── qwen_7b_chat_qlora_openorca_e1.py
        │   │   │       ├── qwen_7b_chat_qlora_sql_e3.py
        │   │   │       └── qwen_7b_chat_qlora_tiny_codes_e1.py
        │   │   └── qwen1_5/
        │   │       ├── qwen1_5_0_5b/
        │   │       │   ├── qwen1_5_0_5b_full_alpaca_e3.py
        │   │       │   └── qwen1_5_0_5b_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_0_5b_chat/
        │   │       │   ├── qwen1_5_0_5b_chat_full_alpaca_e3.py
        │   │       │   └── qwen1_5_0_5b_chat_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_110b/
        │   │       │   ├── qwen1_5_110b_full_alpaca_e3.py
        │   │       │   └── qwen1_5_110b_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_110b_chat/
        │   │       │   ├── README.md
        │   │       │   ├── qwen1_5_110b_chat_full_alpaca_e3.py
        │   │       │   ├── qwen1_5_110b_chat_qlora_alpaca_e3.py
        │   │       │   └── qwen1_5_110b_chat_qlora_alpaca_e3_16k_2gpus.py
        │   │       ├── qwen1_5_14b/
        │   │       │   ├── qwen1_5_14b_full_alpaca_e3.py
        │   │       │   └── qwen1_5_14b_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_14b_chat/
        │   │       │   ├── qwen1_5_14b_chat_full_alpaca_e3.py
        │   │       │   └── qwen1_5_14b_chat_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_1_8b/
        │   │       │   ├── qwen1_5_1_8b_full_alpaca_e3.py
        │   │       │   └── qwen1_5_1_8b_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_1_8b_chat/
        │   │       │   ├── qwen1_5_1_8b_chat_full_alpaca_e3.py
        │   │       │   └── qwen1_5_1_8b_chat_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_4b/
        │   │       │   ├── qwen1_5_4b_full_alpaca_e3.py
        │   │       │   └── qwen1_5_4b_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_4b_chat/
        │   │       │   ├── qwen1_5_4b_chat_full_alpaca_e3.py
        │   │       │   └── qwen1_5_4b_chat_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_72b/
        │   │       │   ├── qwen1_5_72b_full_alpaca_e3.py
        │   │       │   └── qwen1_5_72b_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_72b_chat/
        │   │       │   ├── qwen1_5_72b_chat_full_alpaca_e3.py
        │   │       │   └── qwen1_5_72b_chat_qlora_alpaca_e3.py
        │   │       ├── qwen1_5_7b/
        │   │       │   ├── qwen1_5_7b_full_alpaca_e3.py
        │   │       │   └── qwen1_5_7b_qlora_alpaca_e3.py
        │   │       └── qwen1_5_7b_chat/
        │   │           ├── qwen1_5_7b_chat_full_alpaca_e3.py
        │   │           └── qwen1_5_7b_chat_qlora_alpaca_e3.py
        │   ├── qwen_moe/
        │   │   └── qwen1_5/
        │   │       └── qwen1_5_moe_a2_7_b_chat/
        │   │           └── qwen1_5_moe_a2_7_b_chat_full_alpaca_e3.py
        │   ├── reward_model/
        │   │   ├── internlm/
        │   │   │   ├── internlm2_chat_1_8b_reward_full_ultrafeedback.py
        │   │   │   ├── internlm2_chat_1_8b_reward_full_varlenattn_jsonl_dataset.py
        │   │   │   ├── internlm2_chat_1_8b_reward_full_varlenattn_ultrafeedback.py
        │   │   │   └── internlm2_chat_1_8b_reward_qlora_varlenattn_ultrafeedback.py
        │   │   └── llama/
        │   │       └── llama3_8b_instruct_reward_full_varlenattn_ultrafeedback.py
        │   ├── starcoder/
        │   │   └── starcoder_qlora_stack_exchange_example.py
        │   ├── yi/
        │   │   ├── yi_34b/
        │   │   │   └── yi_34b_qlora_alpaca_enzh_e3.py
        │   │   └── yi_6b/
        │   │       └── yi_6b_qlora_alpaca_enzh_e3.py
        │   └── zephyr/
        │       └── zephyr_7b_beta_qlora_alpaca_e3.py
        ├── dataset/
        │   ├── __init__.py
        │   ├── collate_fns/
        │   │   ├── __init__.py
        │   │   ├── default_collate_fn.py
        │   │   ├── mmlu_collate_fn.py
        │   │   └── preference_collate_fn.py
        │   ├── concat_dataset.py
        │   ├── huggingface.py
        │   ├── intern_repo.py
        │   ├── json_dataset.py
        │   ├── llava.py
        │   ├── map_fns/
        │   │   ├── __init__.py
        │   │   ├── dataset_map_fns/
        │   │   │   ├── __init__.py
        │   │   │   ├── alpaca_map_fn.py
        │   │   │   ├── alpaca_zh_map_fn.py
        │   │   │   ├── arxiv_map_fn.py
        │   │   │   ├── code_alpaca_map_fn.py
        │   │   │   ├── colors_map_fn.py
        │   │   │   ├── crime_kg_assitant_map_fn.py
        │   │   │   ├── default_map_fn.py
        │   │   │   ├── law_reference_map_fn.py
        │   │   │   ├── llava_map_fn.py
        │   │   │   ├── medical_map_fn.py
        │   │   │   ├── msagent_map_fn.py
        │   │   │   ├── oasst1_map_fn.py
        │   │   │   ├── openai_map_fn.py
        │   │   │   ├── openorca_map_fn.py
        │   │   │   ├── pretrain_map_fn.py
        │   │   │   ├── sql_map_fn.py
        │   │   │   ├── stack_exchange_map_fn.py
        │   │   │   ├── tiny_codes_map_fn.py
        │   │   │   └── wizardlm_map_fn.py
        │   │   └── template_map_fn.py
        │   ├── modelscope.py
        │   ├── moss_sft.py
        │   ├── preference_dataset.py
        │   ├── refcoco_json.py
        │   ├── samplers/
        │   │   ├── __init__.py
        │   │   ├── intern_repo.py
        │   │   └── length_grouped.py
        │   └── utils.py
        ├── engine/
        │   ├── __init__.py
        │   ├── _strategy/
        │   │   ├── __init__.py
        │   │   └── deepspeed.py
        │   ├── hooks/
        │   │   ├── __init__.py
        │   │   ├── dataset_info_hook.py
        │   │   ├── evaluate_chat_hook.py
        │   │   ├── hf_checkpoint_hook.py
        │   │   ├── throughput_hook.py
        │   │   └── varlen_attn_args_to_messagehub_hook.py
        │   └── runner/
        │       ├── __init__.py
        │       └── loops.py
        ├── entry_point.py
        ├── evaluation/
        │   ├── __init__.py
        │   └── metrics/
        │       ├── __init__.py
        │       ├── mmlu_metric.py
        │       └── reward_metric.py
        ├── model/
        │   ├── __init__.py
        │   ├── dpo.py
        │   ├── llava.py
        │   ├── modules/
        │   │   ├── __init__.py
        │   │   ├── dispatch/
        │   │   │   ├── __init__.py
        │   │   │   ├── attention.py
        │   │   │   ├── baichuan.py
        │   │   │   ├── cohere.py
        │   │   │   ├── deepseek_v2.py
        │   │   │   ├── internlm.py
        │   │   │   ├── internlm2.py
        │   │   │   ├── llama.py
        │   │   │   ├── mistral.py
        │   │   │   ├── phi3.py
        │   │   │   ├── qwen2.py
        │   │   │   ├── triton_kernels/
        │   │   │   │   ├── __init__.py
        │   │   │   │   ├── layer_norm.py
        │   │   │   │   ├── rms_norm.py
        │   │   │   │   └── rotary.py
        │   │   │   ├── utils.py
        │   │   │   └── yi.py
        │   │   └── projector/
        │   │       ├── __init__.py
        │   │       ├── configuration_projector.py
        │   │       └── modeling_projector.py
        │   ├── orpo.py
        │   ├── reward.py
        │   ├── sft.py
        │   ├── transformers_models/
        │   │   ├── __init__.py
        │   │   ├── deepseek_v2/
        │   │   │   ├── __init__.py
        │   │   │   ├── configuration_deepseek.py
        │   │   │   ├── modeling_deepseek.py
        │   │   │   └── tokenization_deepseek_fast.py
        │   │   └── mixtral/
        │   │       ├── __init__.py
        │   │       ├── configuration_mixtral.py
        │   │       └── modeling_mixtral.py
        │   └── utils.py
        ├── parallel/
        │   ├── __init__.py
        │   └── sequence/
        │       ├── __init__.py
        │       ├── attention.py
        │       ├── comm.py
        │       ├── data_collate.py
        │       ├── reduce_loss.py
        │       ├── sampler.py
        │       └── setup_distributed.py
        ├── registry.py
        ├── tools/
        │   ├── chat.py
        │   ├── check_custom_dataset.py
        │   ├── copy_cfg.py
        │   ├── data_preprocess/
        │   │   ├── arxiv.py
        │   │   └── convert_refcoco.py
        │   ├── eval_refcoco.py
        │   ├── get_data_order.py
        │   ├── list_cfg.py
        │   ├── list_dataset_format.py
        │   ├── log_dataset.py
        │   ├── mmbench.py
        │   ├── model_converters/
        │   │   ├── merge.py
        │   │   ├── modeling_internlm2_reward/
        │   │   │   ├── __init__.py
        │   │   │   ├── configuration_internlm2.py
        │   │   │   └── modeling_internlm2.py
        │   │   ├── pth_to_hf.py
        │   │   └── split.py
        │   ├── plugins/
        │   │   ├── __init__.py
        │   │   ├── api.py
        │   │   ├── calculate.py
        │   │   ├── search.py
        │   │   └── solve.py
        │   ├── process_untokenized_datasets.py
        │   ├── process_untokenized_datasets_legacy.py
        │   ├── process_untokenized_llava_data.py
        │   ├── test.py
        │   ├── tokenize_ftdp_datasets.py
        │   ├── train.py
        │   └── utils.py
        ├── utils/
        │   ├── __init__.py
        │   ├── constants.py
        │   ├── fileio.py
        │   ├── handle_moe_load_and_save.py
        │   ├── stop_criteria.py
        │   ├── templates.py
        │   └── zero_to_any_dtype.py
        └── version.py