gitextract_9q3kx9l7/

├── .dev_scripts/
│   ├── build_docs.sh
│   ├── ci_container_test.sh
│   ├── dockerci.sh
│   └── dockerci_npu.sh
├── .github/
│   ├── ISSUE_TEMPLATE/
│   │   ├── 1-bug-report.yml
│   │   ├── 2-feature-request.yml
│   │   ├── 3-question-discussion.yml
│   │   └── config.yml
│   ├── PULL_REQUEST_TEMPLATE.md
│   ├── SECURITY.md
│   └── workflows/
│       ├── citest.yaml
│       ├── citest_npu.yaml
│       ├── close_tale_issue.yaml
│       ├── lint.yaml
│       └── publish.yaml
├── .gitignore
├── .pre-commit-config.yaml
├── .pre-commit-config_local.yaml
├── CODE_OF_CONDUCT.md
├── CONTRIBUTING.md
├── CONTRIBUTING_CN.md
├── LICENSE
├── MANIFEST.in
├── Makefile
├── README.md
├── README_CN.md
├── docs/
│   ├── Makefile
│   ├── README.md
│   ├── make.bat
│   ├── source/
│   │   ├── .readthedocs.yaml
│   │   ├── BestPractices/
│   │   │   ├── Elastic.md
│   │   │   ├── Embedding.md
│   │   │   ├── GRPO-Code-Training.md
│   │   │   ├── GRPO-Multi-Modal-Training.md
│   │   │   ├── GRPO.md
│   │   │   ├── MLLM-Registration.md
│   │   │   ├── Metax-support.md
│   │   │   ├── More-Best-Practices.md
│   │   │   ├── NPU-support.md
│   │   │   ├── Qwen3-Best-Practice.md
│   │   │   ├── Qwen3-VL-Best-Practice.md
│   │   │   ├── Qwen3_5-Best-Practice.md
│   │   │   ├── Rapidly-Training-VL-model.md
│   │   │   └── Reranker.md
│   │   ├── Customization/
│   │   │   ├── Architecture.md
│   │   │   ├── Custom-dataset.md
│   │   │   └── Custom-model.md
│   │   ├── GetStarted/
│   │   │   ├── Quick-start.md
│   │   │   ├── SWIFT-installation.md
│   │   │   └── Web-UI.md
│   │   ├── Instruction/
│   │   │   ├── Agent-support.md
│   │   │   ├── Command-line-parameters.md
│   │   │   ├── Evaluation.md
│   │   │   ├── Export-and-push.md
│   │   │   ├── Frequently-asked-questions.md
│   │   │   ├── GKD.md
│   │   │   ├── GRPO/
│   │   │   │   ├── AdvancedResearch/
│   │   │   │   │   ├── CHORD.md
│   │   │   │   │   ├── CISPO.md
│   │   │   │   │   ├── DAPO.md
│   │   │   │   │   ├── GSPO.md
│   │   │   │   │   ├── REINFORCEPP.md
│   │   │   │   │   ├── RLOO.md
│   │   │   │   │   ├── SAPO.md
│   │   │   │   │   ├── deepeyes.md
│   │   │   │   │   ├── entropy_mask.md
│   │   │   │   │   ├── index.rst
│   │   │   │   │   ├── training_inference_mismatch.md
│   │   │   │   │   └── treepo.md
│   │   │   │   ├── DeveloperGuide/
│   │   │   │   │   ├── gym_env.md
│   │   │   │   │   ├── index.rst
│   │   │   │   │   ├── loss_types.md
│   │   │   │   │   ├── multi_task.md
│   │   │   │   │   ├── multi_turn.md
│   │   │   │   │   ├── reward_function.md
│   │   │   │   │   └── reward_model.md
│   │   │   │   ├── GetStarted/
│   │   │   │   │   ├── GRPO.md
│   │   │   │   │   └── index.rst
│   │   │   │   └── index.rst
│   │   │   ├── Inference-and-deployment.md
│   │   │   ├── Pre-training-and-Fine-tuning.md
│   │   │   ├── RLHF.md
│   │   │   ├── Ray.md
│   │   │   ├── Reinforced-Fine-tuning.md
│   │   │   ├── Sample.md
│   │   │   ├── Supported-models-and-datasets.md
│   │   │   └── Use-tuners.md
│   │   ├── Megatron-SWIFT/
│   │   │   ├── Ascend.md
│   │   │   ├── Command-line-parameters.md
│   │   │   ├── GKD.md
│   │   │   ├── GRPO.md
│   │   │   ├── LoRA-Training.md
│   │   │   ├── Mcore-Bridge.md
│   │   │   ├── Multimodal-Model.md
│   │   │   └── Quick-start.md
│   │   ├── _templates/
│   │   │   ├── autosummary/
│   │   │   │   └── class.rst
│   │   │   ├── classtemplate.rst
│   │   │   └── sobolengine.rst
│   │   ├── conf.py
│   │   └── index.rst
│   └── source_en/
│       ├── .readthedocs.yaml
│       ├── BestPractices/
│       │   ├── Elastic.md
│       │   ├── Embedding.md
│       │   ├── GRPO-Code-Training.md
│       │   ├── GRPO-Multi-Modal-Training.md
│       │   ├── GRPO.md
│       │   ├── MLLM-Registration.md
│       │   ├── Metax-support.md
│       │   ├── More-Best-Practices.md
│       │   ├── NPU-support.md
│       │   ├── Qwen3-Best-Practice.md
│       │   ├── Qwen3-VL-Best-Practice.md
│       │   ├── Qwen3_5-Best-Practice.md
│       │   ├── Rapidly-Training-VL-model.md
│       │   └── Reranker.md
│       ├── Customization/
│       │   ├── Architecture.md
│       │   ├── Custom-dataset.md
│       │   └── Custom-model.md
│       ├── GetStarted/
│       │   ├── Quick-start.md
│       │   ├── SWIFT-installation.md
│       │   └── Web-UI.md
│       ├── Instruction/
│       │   ├── Agent-support.md
│       │   ├── Command-line-parameters.md
│       │   ├── Evaluation.md
│       │   ├── Export-and-push.md
│       │   ├── Frequently-asked-questions.md
│       │   ├── GKD.md
│       │   ├── GRPO/
│       │   │   ├── AdvancedResearch/
│       │   │   │   ├── CHORD.md
│       │   │   │   ├── CISPO.md
│       │   │   │   ├── DAPO.md
│       │   │   │   ├── GSPO.md
│       │   │   │   ├── REINFORCEPP.md
│       │   │   │   ├── RLOO.md
│       │   │   │   ├── SAPO.md
│       │   │   │   ├── deepeyes.md
│       │   │   │   ├── entropy_mask.md
│       │   │   │   ├── index.rst
│       │   │   │   ├── training_inference_mismatch.md
│       │   │   │   └── treepo.md
│       │   │   ├── DeveloperGuide/
│       │   │   │   ├── gym_env.md
│       │   │   │   ├── index.rst
│       │   │   │   ├── loss_types.md
│       │   │   │   ├── multi_task.md
│       │   │   │   ├── multi_turn.md
│       │   │   │   ├── reward_function.md
│       │   │   │   └── reward_model.md
│       │   │   ├── GetStarted/
│       │   │   │   ├── GRPO.md
│       │   │   │   └── index.rst
│       │   │   └── index.rst
│       │   ├── Inference-and-deployment.md
│       │   ├── Pre-training-and-Fine-tuning.md
│       │   ├── RLHF.md
│       │   ├── Ray.md
│       │   ├── Reinforced-Fine-tuning.md
│       │   ├── Sample.md
│       │   ├── Supported-models-and-datasets.md
│       │   └── Use-tuners.md
│       ├── Megatron-SWIFT/
│       │   ├── Ascend.md
│       │   ├── Command-line-parameters.md
│       │   ├── GKD.md
│       │   ├── GRPO.md
│       │   ├── LoRA-Training.md
│       │   ├── Mcore-Bridge.md
│       │   ├── Multimodal-Model.md
│       │   └── Quick-start.md
│       ├── _templates/
│       │   ├── autosummary/
│       │   │   └── class.rst
│       │   ├── classtemplate.rst
│       │   └── sobolengine.rst
│       ├── conf.py
│       └── index.rst
├── examples/
│   ├── README.md
│   ├── app/
│   │   ├── base_url/
│   │   │   ├── demo.py
│   │   │   └── demo.sh
│   │   ├── llm/
│   │   │   ├── sglang.sh
│   │   │   └── vllm.sh
│   │   └── mllm.sh
│   ├── ascend/
│   │   ├── activation_cpu_offload/
│   │   │   ├── fsdp2.json
│   │   │   └── train.sh
│   │   ├── deploy/
│   │   │   └── vllm.sh
│   │   ├── infer/
│   │   │   └── vllm/
│   │   │       └── dp_tp.sh
│   │   ├── megatron/
│   │   │   └── train_sft_full.sh
│   │   ├── multi-node/
│   │   │   └── megatron/
│   │   │       ├── node1.sh
│   │   │       └── node2.sh
│   │   └── train/
│   │       ├── qwen3/
│   │       │   ├── qwen3_lora_deepspeed.sh
│   │       │   ├── qwen3_lora_fsdp/
│   │       │   │   ├── fsdp.json
│   │       │   │   └── train.sh
│   │       │   └── qwen3_lora_megatron.sh
│   │       ├── qwen3_next/
│   │       │   └── qwen3_next_megatron.sh
│   │       ├── qwen3_omni/
│   │       │   └── qwen3_omni_full_mindspeed.sh
│   │       └── qwen3_vl/
│   │           └── moe_full_mindspeed.sh
│   ├── custom/
│   │   ├── dataset.py
│   │   ├── infer.sh
│   │   ├── model.py
│   │   ├── model_hf.py
│   │   ├── my_qwen2_5_omni/
│   │   │   ├── my_register.py
│   │   │   ├── test_register.py
│   │   │   └── train.py
│   │   └── sft.sh
│   ├── deploy/
│   │   ├── README.md
│   │   ├── agent/
│   │   │   ├── client.py
│   │   │   └── server.sh
│   │   ├── bert/
│   │   │   ├── client.py
│   │   │   └── server.sh
│   │   ├── client/
│   │   │   ├── llm/
│   │   │   │   ├── base/
│   │   │   │   │   ├── openai_client.py
│   │   │   │   │   └── swift_client.py
│   │   │   │   └── chat/
│   │   │   │       ├── openai_client.py
│   │   │   │       └── swift_client.py
│   │   │   └── mllm/
│   │   │       ├── openai_client.py
│   │   │       └── swift_client.py
│   │   ├── embedding/
│   │   │   ├── client.py
│   │   │   └── server.sh
│   │   ├── lora/
│   │   │   ├── client.py
│   │   │   └── server.sh
│   │   ├── reranker/
│   │   │   ├── client.py
│   │   │   ├── client_generative.py
│   │   │   └── server.sh
│   │   ├── reward_model/
│   │   │   ├── client.py
│   │   │   └── server.sh
│   │   ├── seq_cls/
│   │   │   ├── client.py
│   │   │   └── server.sh
│   │   ├── sglang.sh
│   │   ├── vllm.sh
│   │   └── vllm_dp.sh
│   ├── eval/
│   │   ├── eval_url/
│   │   │   ├── demo.py
│   │   │   └── eval.sh
│   │   ├── llm/
│   │   │   ├── sglang.sh
│   │   │   └── vllm.sh
│   │   ├── train_eval/
│   │   │   └── train.sh
│   │   └── vlm/
│   │       └── eval.sh
│   ├── export/
│   │   ├── merge_lora.sh
│   │   ├── ollama.sh
│   │   ├── push_to_hub.sh
│   │   └── quantize/
│   │       ├── awq.sh
│   │       ├── bert/
│   │       │   ├── bnb.sh
│   │       │   └── gptq.sh
│   │       ├── bnb.sh
│   │       ├── fp8.sh
│   │       ├── gptq.sh
│   │       ├── gptq_v2.sh
│   │       ├── mllm/
│   │       │   ├── awq.sh
│   │       │   ├── bnb.sh
│   │       │   ├── fp8.sh
│   │       │   └── gptq.sh
│   │       ├── moe/
│   │       │   ├── awq.sh
│   │       │   ├── bnb.sh
│   │       │   ├── fp8.sh
│   │       │   └── gptq.sh
│   │       ├── omni/
│   │       │   └── gptq.sh
│   │       └── reward_model/
│   │           ├── bnb.sh
│   │           └── gptq.sh
│   ├── infer/
│   │   ├── cli_demo.sh
│   │   ├── demo.py
│   │   ├── demo_agent.py
│   │   ├── demo_bert.py
│   │   ├── demo_embedding.py
│   │   ├── demo_grounding.py
│   │   ├── demo_hf.py
│   │   ├── demo_lora.py
│   │   ├── demo_mllm.py
│   │   ├── demo_reranker.py
│   │   ├── demo_reward_model.py
│   │   ├── demo_vllm_reasoning_parser.py
│   │   ├── lmdeploy/
│   │   │   ├── batch_ddp.sh
│   │   │   └── mllm_tp.sh
│   │   ├── sglang/
│   │   │   ├── demo.sh
│   │   │   ├── distill_qwen3_235b.sh
│   │   │   ├── mtp.sh
│   │   │   └── tp.sh
│   │   ├── transformers/
│   │   │   ├── batch_ddp.sh
│   │   │   ├── bert.sh
│   │   │   ├── lora.sh
│   │   │   ├── mllm_device_map.sh
│   │   │   ├── prm.sh
│   │   │   └── reward_model.sh
│   │   └── vllm/
│   │       ├── dp_tp.sh
│   │       ├── mllm_ddp.sh
│   │       ├── mllm_tp.sh
│   │       └── mtp.sh
│   ├── megatron/
│   │   ├── base_to_chat.sh
│   │   ├── benchmark/
│   │   │   └── deepspeed.sh
│   │   ├── dense/
│   │   │   ├── 72b_offload.sh
│   │   │   └── qwen3_32b.sh
│   │   ├── embedding/
│   │   │   ├── qwen3_emb.sh
│   │   │   └── qwen3_vl_emb.sh
│   │   ├── export/
│   │   │   ├── full.sh
│   │   │   └── lora.sh
│   │   ├── fp8/
│   │   │   ├── benchmark.sh
│   │   │   ├── llm.sh
│   │   │   └── vlm.sh
│   │   ├── grpo/
│   │   │   ├── dense_colocate.sh
│   │   │   ├── dense_server.sh
│   │   │   ├── moe_colocate_full.sh
│   │   │   ├── moe_colocate_lora.sh
│   │   │   └── sapo.sh
│   │   ├── long_text.sh
│   │   ├── lora/
│   │   │   ├── dense.sh
│   │   │   ├── dpo.sh
│   │   │   ├── loss_scale.sh
│   │   │   ├── moe.sh
│   │   │   ├── mtp.sh
│   │   │   ├── new_special_tokens.sh
│   │   │   └── qwen3_235b.sh
│   │   ├── mcore_bridge/
│   │   │   ├── full/
│   │   │   │   ├── dense.sh
│   │   │   │   └── moe.sh
│   │   │   └── lora/
│   │   │       ├── moe.sh
│   │   │       ├── new_special_tokens.sh
│   │   │       └── seq_cls.sh
│   │   ├── moe/
│   │   │   ├── deepseek_v3.sh
│   │   │   ├── moe.sh
│   │   │   ├── qwen3_moe.sh
│   │   │   └── qwen3_moe_offload.sh
│   │   ├── multi-node/
│   │   │   ├── node1.sh
│   │   │   └── node2.sh
│   │   ├── multimodal/
│   │   │   ├── dense/
│   │   │   │   ├── dpo.sh
│   │   │   │   ├── full.sh
│   │   │   │   └── lora.sh
│   │   │   ├── lora_llm_vit_full/
│   │   │   │   └── sft.sh
│   │   │   ├── moe/
│   │   │   │   ├── full_dpo_offload.sh
│   │   │   │   └── lora.sh
│   │   │   └── omni/
│   │   │       ├── dense.sh
│   │   │       └── moe.sh
│   │   ├── pretrain.sh
│   │   ├── reranker/
│   │   │   ├── qwen3_reranker.sh
│   │   │   └── qwen3_vl_reranker.sh
│   │   ├── rlhf/
│   │   │   ├── dpo/
│   │   │   │   ├── dense.sh
│   │   │   │   ├── group_by_length.sh
│   │   │   │   ├── moe.sh
│   │   │   │   └── packing.sh
│   │   │   ├── gkd/
│   │   │   │   ├── dense.sh
│   │   │   │   ├── opsd.sh
│   │   │   │   └── teacher_server.sh
│   │   │   ├── kto/
│   │   │   │   ├── dense.sh
│   │   │   │   └── moe.sh
│   │   │   └── rm/
│   │   │       ├── dense.sh
│   │   │       └── moe.sh
│   │   ├── seq_cls/
│   │   │   ├── full.sh
│   │   │   └── lora/
│   │   │       ├── infer.sh
│   │   │       └── train.sh
│   │   └── sft.sh
│   ├── models/
│   │   ├── deepseek_ocr/
│   │   │   ├── infer.py
│   │   │   └── train.sh
│   │   ├── deepseek_vl2/
│   │   │   └── train.sh
│   │   ├── glm-4.6v/
│   │   │   ├── flash.sh
│   │   │   └── mcore.sh
│   │   ├── gpt_oss/
│   │   │   ├── internvl3_5_gpt.sh
│   │   │   ├── mcore.sh
│   │   │   └── train.sh
│   │   ├── hunyuan_ocr/
│   │   │   └── train.sh
│   │   ├── internvl3/
│   │   │   └── train.sh
│   │   ├── keye/
│   │   │   └── train.sh
│   │   ├── llama4/
│   │   │   └── mcore.sh
│   │   ├── minicpmv/
│   │   │   └── train.sh
│   │   ├── ovis2/
│   │   │   └── train.sh
│   │   ├── qwen3_5/
│   │   │   ├── mcore.sh
│   │   │   ├── mcore_full.sh
│   │   │   ├── mcore_grpo_moe.sh
│   │   │   ├── packing.sh
│   │   │   └── transformers.sh
│   │   ├── qwen3_next/
│   │   │   ├── mcore.sh
│   │   │   ├── mtp.sh
│   │   │   ├── non_padding_free.sh
│   │   │   └── transformers.sh
│   │   ├── qwen3_omni/
│   │   │   ├── transformers.sh
│   │   │   └── zero3.sh
│   │   └── qwen3_vl/
│   │       ├── mcore.sh
│   │       ├── mcore_full.sh
│   │       ├── mixed.sh
│   │       ├── transformers.sh
│   │       └── zero3.sh
│   ├── notebook/
│   │   ├── qwen2_5-self-cognition/
│   │   │   ├── infer.ipynb
│   │   │   ├── infer.sh
│   │   │   ├── self-cognition-sft.ipynb
│   │   │   └── sft.sh
│   │   ├── qwen2_5-vl-grounding/
│   │   │   └── zh.ipynb
│   │   └── qwen2vl-ocr/
│   │       ├── infer.ipynb
│   │       └── ocr-sft.ipynb
│   ├── sampler/
│   │   ├── distill/
│   │   │   ├── distill.sh
│   │   │   └── distill.yaml
│   │   └── sample/
│   │       ├── sample.sh
│   │       └── sampling.yaml
│   ├── train/
│   │   ├── agent/
│   │   │   ├── deepseek_r1.sh
│   │   │   ├── glm4.sh
│   │   │   ├── loss_scale/
│   │   │   │   ├── infer_lora.py
│   │   │   │   └── train.sh
│   │   │   └── qwen2_5.sh
│   │   ├── all_to_all/
│   │   │   ├── infer.sh
│   │   │   └── train.sh
│   │   ├── base_to_chat/
│   │   │   ├── full.sh
│   │   │   ├── lora.sh
│   │   │   └── lora2.sh
│   │   ├── cached_dataset/
│   │   │   ├── dpo.sh
│   │   │   ├── mcore.sh
│   │   │   ├── pretrained.sh
│   │   │   ├── reranker.sh
│   │   │   ├── seq_cls.sh
│   │   │   ├── sft.sh
│   │   │   └── vlm.sh
│   │   ├── early_stop/
│   │   │   └── lora_sft.sh
│   │   ├── embedding/
│   │   │   ├── qwen3/
│   │   │   │   ├── infer.py
│   │   │   │   ├── qwen3_emb.sh
│   │   │   │   └── qwen3_vl_emb.sh
│   │   │   └── train_gme.sh
│   │   ├── flash_attention_3/
│   │   │   ├── mcore.sh
│   │   │   └── transformers.sh
│   │   ├── full/
│   │   │   ├── dft.sh
│   │   │   ├── infer.sh
│   │   │   ├── qwen2_5_32b.sh
│   │   │   └── train.sh
│   │   ├── grpo/
│   │   │   ├── external/
│   │   │   │   ├── README.md
│   │   │   │   ├── agent.sh
│   │   │   │   ├── grpo_32b_full.sh
│   │   │   │   ├── grpo_7b.sh
│   │   │   │   ├── moe_full.sh
│   │   │   │   ├── moe_lora.sh
│   │   │   │   ├── vllm_gym.sh
│   │   │   │   └── vllm_multi_turn.sh
│   │   │   ├── internal/
│   │   │   │   ├── README.md
│   │   │   │   ├── chord.sh
│   │   │   │   ├── full_lmdeploy.sh
│   │   │   │   ├── gspo.sh
│   │   │   │   ├── moe_full.sh
│   │   │   │   ├── moe_lora.sh
│   │   │   │   ├── qlora.sh
│   │   │   │   ├── reinforce_plus_plus.sh
│   │   │   │   ├── rloo.sh
│   │   │   │   ├── sapo.sh
│   │   │   │   ├── transformers.sh
│   │   │   │   ├── vllm_72b_4gpu.sh
│   │   │   │   ├── vllm_lora_qwenvl72b.sh
│   │   │   │   ├── vllm_multi_turn.sh
│   │   │   │   └── vllm_vl7b.sh
│   │   │   ├── multi_node/
│   │   │   │   ├── Qwen2_5_32B_full.sh
│   │   │   │   ├── colocate_multi_node1.sh
│   │   │   │   ├── colocate_multi_node2.sh
│   │   │   │   ├── server_multi_node.sh
│   │   │   │   └── train_dlc.sh
│   │   │   ├── plugin/
│   │   │   │   ├── deepeyes/
│   │   │   │   │   ├── deepeyes.sh
│   │   │   │   │   └── deepeyes_plugin.py
│   │   │   │   ├── gsm8k/
│   │   │   │   │   ├── gsm8k.sh
│   │   │   │   │   └── gsm8k_plugin.py
│   │   │   │   ├── plugin.py
│   │   │   │   ├── run_external_reward_func.sh
│   │   │   │   ├── run_external_reward_model.sh
│   │   │   │   ├── run_external_scheduler.sh
│   │   │   │   └── treepo/
│   │   │   │       ├── tree_rollout.py
│   │   │   │       ├── tree_rollout.sh
│   │   │   │       └── tree_rollout_plugin.py
│   │   │   ├── prompt.txt
│   │   │   └── qwen2_5_omni/
│   │   │       ├── grpo.sh
│   │   │       └── infer.sh
│   │   ├── infer.sh
│   │   ├── liger/
│   │   │   └── sft.sh
│   │   ├── lora_sft.sh
│   │   ├── moe/
│   │   │   ├── llama4.sh
│   │   │   └── qwen3_moe.sh
│   │   ├── multi-gpu/
│   │   │   ├── ddp/
│   │   │   │   └── train.sh
│   │   │   ├── ddp_device_map/
│   │   │   │   └── train.sh
│   │   │   ├── deepspeed/
│   │   │   │   ├── train_zero2.sh
│   │   │   │   └── train_zero3.sh
│   │   │   ├── device_map/
│   │   │   │   └── train.sh
│   │   │   ├── fsdp2_lora/
│   │   │   │   ├── fsdp2.json
│   │   │   │   └── train.sh
│   │   │   └── fsdp_qlora/
│   │   │       ├── fsdp_offload.json
│   │   │       └── train.sh
│   │   ├── multi-node/
│   │   │   ├── accelerate/
│   │   │   │   ├── multi_node.yaml
│   │   │   │   ├── train_node1.sh
│   │   │   │   └── train_node2.sh
│   │   │   ├── deepspeed/
│   │   │   │   ├── README.md
│   │   │   │   ├── host.txt
│   │   │   │   └── train.sh
│   │   │   ├── dlc/
│   │   │   │   └── train.sh
│   │   │   ├── ray/
│   │   │   │   ├── sft.sh
│   │   │   │   └── sft.yaml
│   │   │   ├── swift/
│   │   │   │   ├── train_node1.sh
│   │   │   │   └── train_node2.sh
│   │   │   └── torchrun/
│   │   │       ├── train_node1.sh
│   │   │       └── train_node2.sh
│   │   ├── multimodal/
│   │   │   ├── audio.sh
│   │   │   ├── caption.sh
│   │   │   ├── grounding.sh
│   │   │   ├── infer.sh
│   │   │   ├── lora_llm_full_vit/
│   │   │   │   ├── infer.sh
│   │   │   │   ├── merge_lora.sh
│   │   │   │   ├── seq_cls.sh
│   │   │   │   └── sft.sh
│   │   │   ├── ocr.sh
│   │   │   ├── omni/
│   │   │   │   ├── infer.sh
│   │   │   │   └── sft.sh
│   │   │   ├── rlhf/
│   │   │   │   ├── dpo/
│   │   │   │   │   ├── full.sh
│   │   │   │   │   └── lora.sh
│   │   │   │   ├── gkd/
│   │   │   │   │   ├── fast.sh
│   │   │   │   │   └── full.sh
│   │   │   │   └── kto.sh
│   │   │   ├── video.sh
│   │   │   └── vit_gradient_checkpointing.sh
│   │   ├── new_special_tokens/
│   │   │   ├── infer.sh
│   │   │   ├── merge_lora.sh
│   │   │   ├── tokens.txt
│   │   │   └── train.sh
│   │   ├── on_policy_distillation.sh
│   │   ├── optimizer/
│   │   │   ├── muon.sh
│   │   │   └── muonclip.sh
│   │   ├── packing/
│   │   │   ├── dpo.sh
│   │   │   ├── dpo_vlm.sh
│   │   │   ├── liger_kernel.sh
│   │   │   ├── llm.sh
│   │   │   ├── qwen2_5_omni.sh
│   │   │   ├── qwen2_5_vl.sh
│   │   │   └── streaming.sh
│   │   ├── padding_free/
│   │   │   ├── dpo_vlm.sh
│   │   │   └── sft.sh
│   │   ├── plugins/
│   │   │   ├── loss_scale.sh
│   │   │   └── tuner_phi4_mm.sh
│   │   ├── predict_with_generate/
│   │   │   └── train.sh
│   │   ├── pretrain/
│   │   │   └── train.sh
│   │   ├── qlora/
│   │   │   ├── awq/
│   │   │   │   ├── merge_lora.sh
│   │   │   │   └── train.sh
│   │   │   ├── bnb/
│   │   │   │   ├── merge_lora.sh
│   │   │   │   └── train.sh
│   │   │   ├── gptq.sh
│   │   │   └── hqq.sh
│   │   ├── reranker/
│   │   │   ├── qwen3/
│   │   │   │   ├── infer.py
│   │   │   │   ├── qwen3_reranker.sh
│   │   │   │   └── qwen3_vl_reranker.sh
│   │   │   ├── train_generative_reranker.sh
│   │   │   ├── train_generative_reranker_listwise.sh
│   │   │   ├── train_reranker.sh
│   │   │   ├── train_reranker_auto_patch.sh
│   │   │   ├── train_reranker_listwise.sh
│   │   │   └── train_reranker_mm.sh
│   │   ├── rft/
│   │   │   ├── math.json
│   │   │   └── rft.py
│   │   ├── rlhf/
│   │   │   ├── README.md
│   │   │   ├── cpo.sh
│   │   │   ├── dpo/
│   │   │   │   ├── full.sh
│   │   │   │   └── lora.sh
│   │   │   ├── gkd/
│   │   │   │   ├── fast.sh
│   │   │   │   ├── full.sh
│   │   │   │   ├── teacher_server.sh
│   │   │   │   ├── think_model.sh
│   │   │   │   ├── vllm_colocate.sh
│   │   │   │   └── vllm_server.sh
│   │   │   ├── kto.sh
│   │   │   ├── mpo.sh
│   │   │   ├── opsd/
│   │   │   │   ├── opsd.sh
│   │   │   │   └── opsd_plugin.py
│   │   │   ├── orpo.sh
│   │   │   ├── ppo/
│   │   │   │   ├── full.sh
│   │   │   │   └── lora.sh
│   │   │   ├── rm.sh
│   │   │   └── simpo.sh
│   │   ├── seq_cls/
│   │   │   ├── bert/
│   │   │   │   ├── deploy.sh
│   │   │   │   ├── infer.sh
│   │   │   │   └── sft.sh
│   │   │   ├── multi_label/
│   │   │   │   ├── infer.py
│   │   │   │   ├── infer.sh
│   │   │   │   ├── sft.sh
│   │   │   │   └── vlm.sh
│   │   │   ├── qwen2_5/
│   │   │   │   ├── deploy.sh
│   │   │   │   ├── infer.sh
│   │   │   │   └── sft.sh
│   │   │   ├── qwen2_5_omni/
│   │   │   │   ├── infer.py
│   │   │   │   ├── infer.sh
│   │   │   │   └── sft.sh
│   │   │   └── regression/
│   │   │       ├── deploy.sh
│   │   │       ├── infer.sh
│   │   │       └── sft.sh
│   │   ├── sequence_parallel/
│   │   │   ├── sequence_parallel.sh
│   │   │   ├── sequence_parallel_512k.sh
│   │   │   ├── sequence_parallel_dpo.sh
│   │   │   ├── sequence_parallel_emb.sh
│   │   │   ├── sequence_parallel_grpo.sh
│   │   │   ├── sequence_parallel_reranker.sh
│   │   │   └── sequence_parallel_seq_cls.sh
│   │   ├── streaming/
│   │   │   ├── lazy_tokenize.sh
│   │   │   └── streaming.sh
│   │   ├── think_model/
│   │   │   ├── deepseek_r1.sh
│   │   │   ├── qwen3_demo1.sh
│   │   │   └── qwen3_demo2.sh
│   │   └── tuners/
│   │       ├── adalora/
│   │       │   └── train.sh
│   │       ├── adapter/
│   │       │   └── train.sh
│   │       ├── boft/
│   │       │   └── train.sh
│   │       ├── bone/
│   │       │   └── train.sh
│   │       ├── dora/
│   │       │   └── train.sh
│   │       ├── galore/
│   │       │   ├── train_galore.sh
│   │       │   └── train_qgalore.sh
│   │       ├── lisa/
│   │       │   └── train.sh
│   │       ├── llamapro/
│   │       │   └── train.sh
│   │       ├── longlora/
│   │       │   └── train.sh
│   │       ├── lora/
│   │       │   └── train.sh
│   │       ├── lora-ga/
│   │       │   └── train.sh
│   │       ├── neftune/
│   │       │   └── train.sh
│   │       ├── olora/
│   │       │   └── train.sh
│   │       ├── pissa/
│   │       │   └── train.sh
│   │       ├── qlora/
│   │       │   └── train.sh
│   │       ├── reft/
│   │       │   └── train.sh
│   │       └── unsloth/
│   │           └── train.sh
│   └── yaml/
│       ├── sft.sh
│       └── sft.yaml
├── requirements/
│   ├── docs.txt
│   ├── eval.txt
│   ├── framework.txt
│   ├── install_all.sh
│   ├── ray.txt
│   ├── swanlab.txt
│   └── tests.txt
├── requirements.txt
├── scripts/
│   ├── benchmark/
│   │   ├── config/
│   │   │   └── tuner.json
│   │   ├── exp.py
│   │   ├── exp_utils.py
│   │   └── generate_report.py
│   └── utils/
│       ├── plot_loss.py
│       ├── run_dataset_info.py
│       ├── run_model_info.py
│       ├── run_template.py
│       └── test_link_valid.py
├── setup.cfg
├── setup.py
├── swift/
│   ├── __init__.py
│   ├── agent_template/
│   │   ├── __init__.py
│   │   ├── base.py
│   │   ├── deepseek_v3_1.py
│   │   ├── extra.py
│   │   ├── glm4.py
│   │   ├── hermes.py
│   │   ├── llama.py
│   │   ├── mapping.py
│   │   ├── minimax_m2.py
│   │   ├── mistral.py
│   │   ├── qwen.py
│   │   ├── qwen3_coder.py
│   │   ├── react.py
│   │   ├── seed_oss.py
│   │   ├── toolbench.py
│   │   └── youtu.py
│   ├── arguments/
│   │   ├── __init__.py
│   │   ├── app_args.py
│   │   ├── base_args/
│   │   │   ├── __init__.py
│   │   │   ├── base_args.py
│   │   │   ├── data_args.py
│   │   │   ├── generation_args.py
│   │   │   ├── model_args.py
│   │   │   ├── quant_args.py
│   │   │   └── template_args.py
│   │   ├── deploy_args.py
│   │   ├── eval_args.py
│   │   ├── export_args.py
│   │   ├── infer_args.py
│   │   ├── merge_args.py
│   │   ├── pretrain_args.py
│   │   ├── rlhf_args.py
│   │   ├── sampling_args.py
│   │   ├── sft_args.py
│   │   ├── tuner_args.py
│   │   └── webui_args.py
│   ├── callbacks/
│   │   ├── __init__.py
│   │   ├── activation_cpu_offload.py
│   │   ├── adalora.py
│   │   ├── base.py
│   │   ├── deepspeed_elastic.py
│   │   ├── early_stop.py
│   │   ├── lisa.py
│   │   ├── mapping.py
│   │   └── perf_log.py
│   ├── cli/
│   │   ├── __init__.py
│   │   ├── _megatron/
│   │   │   ├── __init__.py
│   │   │   ├── export.py
│   │   │   ├── main.py
│   │   │   ├── pt.py
│   │   │   ├── rlhf.py
│   │   │   └── sft.py
│   │   ├── app.py
│   │   ├── deploy.py
│   │   ├── eval.py
│   │   ├── export.py
│   │   ├── infer.py
│   │   ├── main.py
│   │   ├── merge_lora.py
│   │   ├── pt.py
│   │   ├── rlhf.py
│   │   ├── rollout.py
│   │   ├── sample.py
│   │   ├── sft.py
│   │   ├── utils.py
│   │   └── web_ui.py
│   ├── config/
│   │   ├── fsdp2.json
│   │   ├── zero0.json
│   │   ├── zero1.json
│   │   ├── zero2.json
│   │   ├── zero2_offload.json
│   │   ├── zero3.json
│   │   └── zero3_offload.json
│   ├── dataloader/
│   │   ├── __init__.py
│   │   ├── dispatcher.py
│   │   └── shard.py
│   ├── dataset/
│   │   ├── __init__.py
│   │   ├── data/
│   │   │   └── dataset_info.json
│   │   ├── dataset/
│   │   │   ├── __init__.py
│   │   │   ├── llm.py
│   │   │   └── mllm.py
│   │   ├── dataset_meta.py
│   │   ├── dataset_syntax.py
│   │   ├── indexed_dataset.py
│   │   ├── loader.py
│   │   ├── media.py
│   │   ├── packing.py
│   │   ├── preprocessor/
│   │   │   ├── __init__.py
│   │   │   ├── core.py
│   │   │   └── extra.py
│   │   ├── register.py
│   │   └── utils.py
│   ├── hub/
│   │   ├── __init__.py
│   │   ├── constant.py
│   │   └── hub.py
│   ├── infer_engine/
│   │   ├── __init__.py
│   │   ├── base.py
│   │   ├── grpo_vllm_engine.py
│   │   ├── infer_client.py
│   │   ├── infer_engine.py
│   │   ├── lmdeploy_engine.py
│   │   ├── patch.py
│   │   ├── protocol.py
│   │   ├── sglang_engine.py
│   │   ├── transformers_engine.py
│   │   ├── utils.py
│   │   └── vllm_engine.py
│   ├── loss/
│   │   ├── __init__.py
│   │   ├── base.py
│   │   ├── causal_lm.py
│   │   ├── embedding.py
│   │   ├── mapping.py
│   │   └── reranker.py
│   ├── loss_scale/
│   │   ├── __init__.py
│   │   ├── agent.py
│   │   ├── base.py
│   │   ├── config/
│   │   │   ├── agentflan.json
│   │   │   ├── alpha_umi.json
│   │   │   ├── hermes.json
│   │   │   ├── ignore_empty_think.json
│   │   │   ├── qwen.json
│   │   │   └── react.json
│   │   ├── mapping.py
│   │   ├── other.py
│   │   └── utils.py
│   ├── megatron/
│   │   ├── __init__.py
│   │   ├── arguments/
│   │   │   ├── __init__.py
│   │   │   ├── export_args.py
│   │   │   ├── megatron_args.py
│   │   │   ├── megatron_base_args.py
│   │   │   ├── pretrain_args.py
│   │   │   ├── rlhf_args.py
│   │   │   └── sft_args.py
│   │   ├── callbacks/
│   │   │   ├── __init__.py
│   │   │   ├── base.py
│   │   │   ├── default_flow.py
│   │   │   ├── mapping.py
│   │   │   ├── print.py
│   │   │   ├── swanlab.py
│   │   │   ├── tensorboard.py
│   │   │   ├── utils.py
│   │   │   └── wandb.py
│   │   ├── convert.py
│   │   ├── init.py
│   │   ├── model/
│   │   │   ├── __init__.py
│   │   │   ├── constant.py
│   │   │   ├── gpt_bridge.py
│   │   │   ├── gpt_model.py
│   │   │   ├── gpts/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── glm4.py
│   │   │   │   ├── minimax_m2.py
│   │   │   │   ├── olmoe.py
│   │   │   │   ├── qwen3_emb.py
│   │   │   │   └── qwen3_next.py
│   │   │   ├── mm_gpt_model.py
│   │   │   ├── mm_gpts/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── glm.py
│   │   │   │   ├── internvl.py
│   │   │   │   ├── kimi_vl.py
│   │   │   │   ├── llama4.py
│   │   │   │   ├── qwen.py
│   │   │   │   ├── qwen3_5.py
│   │   │   │   ├── qwen3_5_gdn.py
│   │   │   │   ├── qwen3_vl.py
│   │   │   │   └── utils.py
│   │   │   ├── model_config.py
│   │   │   ├── modules/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── gated_delta_net.py
│   │   │   │   └── gated_self_attention.py
│   │   │   ├── register.py
│   │   │   └── rope.py
│   │   ├── pipelines/
│   │   │   ├── __init__.py
│   │   │   ├── export/
│   │   │   │   ├── __init__.py
│   │   │   │   └── export.py
│   │   │   └── train/
│   │   │       ├── __init__.py
│   │   │       ├── pretrain.py
│   │   │       ├── rlhf.py
│   │   │       └── sft.py
│   │   ├── trainers/
│   │   │   ├── __init__.py
│   │   │   ├── base.py
│   │   │   ├── batch_sampler.py
│   │   │   ├── dpo_trainer.py
│   │   │   ├── embedding_trainer.py
│   │   │   ├── gkd_trainer.py
│   │   │   ├── grpo_trainer.py
│   │   │   ├── kto_trainer.py
│   │   │   ├── reranker_trainer.py
│   │   │   ├── reward_trainer.py
│   │   │   ├── rlhf_mixin.py
│   │   │   ├── rollout_mixin.py
│   │   │   ├── trainer.py
│   │   │   ├── utils.py
│   │   │   └── vocab_parallel_utils.py
│   │   ├── tuners/
│   │   │   ├── __init__.py
│   │   │   └── lora.py
│   │   └── utils/
│   │       ├── __init__.py
│   │       ├── convert_utils.py
│   │       ├── megatron_lm_utils.py
│   │       ├── parallel_utils.py
│   │       ├── patcher.py
│   │       └── utils.py
│   ├── metrics/
│   │   ├── __init__.py
│   │   ├── acc.py
│   │   ├── base.py
│   │   ├── embedding.py
│   │   ├── mapping.py
│   │   ├── nlg.py
│   │   ├── reranker.py
│   │   └── utils.py
│   ├── model/
│   │   ├── __init__.py
│   │   ├── constant.py
│   │   ├── model_arch.py
│   │   ├── model_meta.py
│   │   ├── models/
│   │   │   ├── __init__.py
│   │   │   ├── baai.py
│   │   │   ├── baichuan.py
│   │   │   ├── baidu.py
│   │   │   ├── bert.py
│   │   │   ├── codefuse.py
│   │   │   ├── deepseek.py
│   │   │   ├── gemma.py
│   │   │   ├── glm.py
│   │   │   ├── internlm.py
│   │   │   ├── llama.py
│   │   │   ├── llava.py
│   │   │   ├── llm.py
│   │   │   ├── mamba.py
│   │   │   ├── microsoft.py
│   │   │   ├── minicpm.py
│   │   │   ├── minimax.py
│   │   │   ├── mistral.py
│   │   │   ├── mllm.py
│   │   │   ├── moonshot.py
│   │   │   ├── mplug.py
│   │   │   ├── openbuddy.py
│   │   │   ├── qwen.py
│   │   │   ├── seed.py
│   │   │   ├── skywork.py
│   │   │   ├── stepfun.py
│   │   │   ├── telechat.py
│   │   │   ├── tencent.py
│   │   │   ├── valley.py
│   │   │   └── yi.py
│   │   ├── npu_patcher.py
│   │   ├── patcher.py
│   │   ├── register.py
│   │   └── utils.py
│   ├── optimizers/
│   │   ├── __init__.py
│   │   ├── base.py
│   │   ├── galore/
│   │   │   ├── __init__.py
│   │   │   ├── adafactor.py
│   │   │   ├── adamw.py
│   │   │   ├── adamw8bit.py
│   │   │   ├── galore_projector.py
│   │   │   └── utils.py
│   │   ├── lorap.py
│   │   ├── mapping.py
│   │   ├── multimodal.py
│   │   ├── muon.py
│   │   └── muonclip.py
│   ├── pipelines/
│   │   ├── __init__.py
│   │   ├── app/
│   │   │   ├── __init__.py
│   │   │   ├── app.py
│   │   │   ├── build_ui.py
│   │   │   └── locale.py
│   │   ├── base.py
│   │   ├── eval/
│   │   │   ├── __init__.py
│   │   │   ├── eval.py
│   │   │   └── utils.py
│   │   ├── export/
│   │   │   ├── __init__.py
│   │   │   ├── cached_dataset.py
│   │   │   ├── export.py
│   │   │   ├── merge_lora.py
│   │   │   ├── ollama.py
│   │   │   └── quant.py
│   │   ├── infer/
│   │   │   ├── __init__.py
│   │   │   ├── deploy.py
│   │   │   ├── infer.py
│   │   │   ├── rollout.py
│   │   │   └── utils.py
│   │   ├── sampling/
│   │   │   ├── __init__.py
│   │   │   ├── base.py
│   │   │   ├── distill_sampler.py
│   │   │   ├── sampling.py
│   │   │   ├── utils.py
│   │   │   └── vanilla_sampler.py
│   │   ├── train/
│   │   │   ├── __init__.py
│   │   │   ├── kto.py
│   │   │   ├── pretrain.py
│   │   │   ├── rlhf.py
│   │   │   ├── sft.py
│   │   │   └── tuner.py
│   │   └── utils.py
│   ├── ray/
│   │   ├── __init__.py
│   │   ├── arguments.py
│   │   ├── base.py
│   │   └── resource_manager.py
│   ├── rewards/
│   │   ├── __init__.py
│   │   ├── orm.py
│   │   ├── prm.py
│   │   └── rm_plugin.py
│   ├── rlhf_trainers/
│   │   ├── __init__.py
│   │   ├── args_mixin.py
│   │   ├── arguments.py
│   │   ├── cpo_trainer.py
│   │   ├── dpo_trainer.py
│   │   ├── gkd_trainer.py
│   │   ├── grpo_trainer.py
│   │   ├── kto_trainer.py
│   │   ├── orpo_trainer.py
│   │   ├── ppo_trainer.py
│   │   ├── reward_trainer.py
│   │   ├── rlhf_mixin.py
│   │   ├── rollout_mixin.py
│   │   ├── utils.py
│   │   └── vllm_client.py
│   ├── rollout/
│   │   ├── __init__.py
│   │   ├── gym_env.py
│   │   └── multi_turn.py
│   ├── sequence_parallel/
│   │   ├── __init__.py
│   │   ├── ulysses.py
│   │   ├── utils.py
│   │   └── zigzag_ring_attn.py
│   ├── template/
│   │   ├── __init__.py
│   │   ├── base.py
│   │   ├── constant.py
│   │   ├── grounding.py
│   │   ├── register.py
│   │   ├── template_inputs.py
│   │   ├── template_meta.py
│   │   ├── templates/
│   │   │   ├── __init__.py
│   │   │   ├── baai.py
│   │   │   ├── baidu.py
│   │   │   ├── bert.py
│   │   │   ├── deepseek.py
│   │   │   ├── dots.py
│   │   │   ├── gemma.py
│   │   │   ├── glm.py
│   │   │   ├── idefics3.py
│   │   │   ├── internlm.py
│   │   │   ├── internvl.py
│   │   │   ├── kwai.py
│   │   │   ├── llama.py
│   │   │   ├── llava.py
│   │   │   ├── llm.py
│   │   │   ├── megrez.py
│   │   │   ├── microsoft.py
│   │   │   ├── midashenglm.py
│   │   │   ├── minicpm.py
│   │   │   ├── minimax.py
│   │   │   ├── minimind.py
│   │   │   ├── mistral.py
│   │   │   ├── molmo.py
│   │   │   ├── moonshot.py
│   │   │   ├── mplug.py
│   │   │   ├── openbuddy.py
│   │   │   ├── pixtral.py
│   │   │   ├── qwen.py
│   │   │   ├── seed.py
│   │   │   ├── stepfun.py
│   │   │   ├── tencent.py
│   │   │   ├── utils.py
│   │   │   ├── valley.py
│   │   │   └── yi.py
│   │   ├── utils.py
│   │   └── vision_utils.py
│   ├── trainers/
│   │   ├── __init__.py
│   │   ├── arguments.py
│   │   ├── embedding_trainer.py
│   │   ├── mixin.py
│   │   ├── patcher.py
│   │   ├── reranker_trainer.py
│   │   ├── seq2seq_trainer.py
│   │   ├── trainer.py
│   │   ├── trainer_factory.py
│   │   └── utils.py
│   ├── tuner_plugin/
│   │   ├── __init__.py
│   │   ├── base.py
│   │   ├── dummy.py
│   │   ├── ia3.py
│   │   ├── lora_llm.py
│   │   └── mapping.py
│   ├── tuners/
│   │   ├── __init__.py
│   │   ├── adapter.py
│   │   ├── base.py
│   │   ├── llamapro.py
│   │   ├── longlora/
│   │   │   ├── __init__.py
│   │   │   ├── llama.py
│   │   │   └── longlora.py
│   │   ├── lora.py
│   │   ├── lora_layers.py
│   │   ├── mapping.py
│   │   ├── neftune.py
│   │   ├── part.py
│   │   ├── peft.py
│   │   ├── prompt.py
│   │   ├── reft.py
│   │   ├── restuning.py
│   │   ├── restuning_components.py
│   │   ├── scetuning/
│   │   │   ├── __init__.py
│   │   │   ├── scetuning.py
│   │   │   └── scetuning_components.py
│   │   ├── side.py
│   │   └── utils.py
│   ├── ui/
│   │   ├── __init__.py
│   │   ├── app.py
│   │   ├── base.py
│   │   ├── llm_eval/
│   │   │   ├── __init__.py
│   │   │   ├── eval.py
│   │   │   ├── llm_eval.py
│   │   │   ├── model.py
│   │   │   └── runtime.py
│   │   ├── llm_export/
│   │   │   ├── __init__.py
│   │   │   ├── export.py
│   │   │   ├── llm_export.py
│   │   │   ├── model.py
│   │   │   └── runtime.py
│   │   ├── llm_grpo/
│   │   │   ├── __init__.py
│   │   │   ├── advanced.py
│   │   │   ├── dataset.py
│   │   │   ├── external_rollout.py
│   │   │   ├── external_runtime.py
│   │   │   ├── grpo_advanced.py
│   │   │   ├── hyper.py
│   │   │   ├── llm_grpo.py
│   │   │   ├── lora.py
│   │   │   ├── model.py
│   │   │   ├── optimizer.py
│   │   │   ├── quantization.py
│   │   │   ├── report_to.py
│   │   │   ├── reward.py
│   │   │   ├── rollout.py
│   │   │   ├── runtime.py
│   │   │   ├── save.py
│   │   │   ├── target.py
│   │   │   └── tuner.py
│   │   ├── llm_infer/
│   │   │   ├── __init__.py
│   │   │   ├── generate.py
│   │   │   ├── llm_infer.py
│   │   │   ├── model.py
│   │   │   └── runtime.py
│   │   ├── llm_rlhf/
│   │   │   ├── __init__.py
│   │   │   ├── advanced.py
│   │   │   ├── dataset.py
│   │   │   ├── hyper.py
│   │   │   ├── llm_rlhf.py
│   │   │   ├── lora.py
│   │   │   ├── model.py
│   │   │   ├── optimizer.py
│   │   │   ├── quantization.py
│   │   │   ├── report_to.py
│   │   │   ├── rlhf.py
│   │   │   ├── runtime.py
│   │   │   ├── save.py
│   │   │   ├── target.py
│   │   │   └── tuner.py
│   │   ├── llm_sample/
│   │   │   ├── __init__.py
│   │   │   ├── llm_sample.py
│   │   │   ├── model.py
│   │   │   ├── runtime.py
│   │   │   └── sample.py
│   │   └── llm_train/
│   │       ├── __init__.py
│   │       ├── advanced.py
│   │       ├── dataset.py
│   │       ├── hyper.py
│   │       ├── llm_train.py
│   │       ├── lora.py
│   │       ├── model.py
│   │       ├── optimizer.py
│   │       ├── quantization.py
│   │       ├── report_to.py
│   │       ├── runtime.py
│   │       ├── save.py
│   │       ├── self_cog.py
│   │       ├── target.py
│   │       ├── task.py
│   │       ├── tuner.py
│   │       └── utils.py
│   ├── utils/
│   │   ├── __init__.py
│   │   ├── constants.py
│   │   ├── dequantizer.py
│   │   ├── env.py
│   │   ├── hf_config.py
│   │   ├── hub_utils.py
│   │   ├── import_utils.py
│   │   ├── io_utils.py
│   │   ├── logger.py
│   │   ├── np_utils.py
│   │   ├── processor_utils.py
│   │   ├── safetensors.py
│   │   ├── shutdown_manager.py
│   │   ├── tb_utils.py
│   │   ├── torch_utils.py
│   │   ├── transformers_utils.py
│   │   └── utils.py
│   └── version.py
└── tests/
    ├── __init__.py
    ├── app/
    │   └── test_app.py
    ├── deploy/
    │   ├── test_dataset.py
    │   └── test_logprobs.py
    ├── eval/
    │   └── test_eval.py
    ├── export/
    │   └── test_quant.py
    ├── general/
    │   ├── test_arch.py
    │   ├── test_dataset.py
    │   ├── test_model.py
    │   ├── test_stream.py
    │   └── test_template.py
    ├── hub/
    │   ├── __init__.py
    │   └── test_check_model.py
    ├── infer/
    │   ├── test_agent.py
    │   ├── test_infer.py
    │   ├── test_logprobs.py
    │   ├── test_main.py
    │   ├── test_max_memory.py
    │   ├── test_mllm.py
    │   └── test_sglang.py
    ├── llm/
    │   ├── __init__.py
    │   ├── config/
    │   │   ├── infer.json
    │   │   └── sft.json
    │   ├── data/
    │   │   ├── alpaca.csv
    │   │   ├── alpaca.jsonl
    │   │   ├── alpaca2.csv
    │   │   ├── chatml.jsonl
    │   │   ├── conversations.jsonl
    │   │   ├── multi_modal_1.jsonl
    │   │   ├── multi_modal_2.jsonl
    │   │   ├── multi_modal_3.jsonl
    │   │   ├── sharegpt.jsonl
    │   │   ├── swift_multi.json
    │   │   ├── swift_multi.jsonl
    │   │   ├── swift_pre.csv
    │   │   ├── swift_pre.jsonl
    │   │   ├── swift_single.csv
    │   │   └── swift_single.jsonl
    │   ├── test_custom.py
    │   ├── test_dataset.py
    │   ├── test_ollama_export.py
    │   ├── test_run.py
    │   ├── test_template.py
    │   ├── test_utils.py
    │   └── test_web_ui.py
    ├── megatron/
    │   ├── export/
    │   │   └── test_export.py
    │   ├── test_align/
    │   │   ├── test_llm.py
    │   │   └── test_mllm.py
    │   ├── test_embedding.py
    │   ├── test_export.py
    │   ├── test_gkd.py
    │   ├── test_grpo.py
    │   ├── test_kto.py
    │   ├── test_lora.py
    │   ├── test_rlhf.py
    │   └── test_train.py
    ├── model_tag.py
    ├── models/
    │   ├── test_flash_attn.py
    │   ├── test_llm.py
    │   └── test_mllm.py
    ├── run.py
    ├── run_config.yaml
    ├── sample/
    │   └── test_client.py
    ├── test_align/
    │   ├── test_cls.py
    │   ├── test_lmdeploy_vlm.py
    │   ├── test_padding_side.py
    │   ├── test_rlhf_loss.py
    │   ├── test_template/
    │   │   ├── test_agent.py
    │   │   ├── test_audio.py
    │   │   ├── test_gene.py
    │   │   ├── test_llm.py
    │   │   ├── test_template.py
    │   │   ├── test_tool.py
    │   │   ├── test_video.py
    │   │   └── test_vision.py
    │   └── test_vllm_vlm.py
    ├── test_utils.py
    ├── train/
    │   ├── test_channel.py
    │   ├── test_cls.py
    │   ├── test_embedding.py
    │   ├── test_export_cached_dataset.py
    │   ├── test_freeze.py
    │   ├── test_gkd.py
    │   ├── test_grounding.py
    │   ├── test_grpo.py
    │   ├── test_kto.py
    │   ├── test_liger.py
    │   ├── test_multilabel.py
    │   ├── test_packing.py
    │   ├── test_ppo.py
    │   ├── test_pt.py
    │   ├── test_resume_from_checkpoint.py
    │   ├── test_rlhf.py
    │   ├── test_sample.py
    │   ├── test_sft.py
    │   ├── test_train_eval.py
    │   ├── test_vit_lr.py
    │   └── test_vllm_importance_sampling_basic.py
    ├── tuners/
    │   ├── __init__.py
    │   ├── test_extra_state_dict.py
    │   ├── test_merged_linear.py
    │   ├── test_neft.py
    │   ├── test_peft.py
    │   ├── test_scetuning.py
    │   ├── test_swift_base.py
    │   ├── test_swift_device_map.py
    │   └── test_swift_restuning.py
    └── utils/
        ├── __init__.py
        ├── test_async_rewards.py
        ├── test_file_utils.py
        ├── test_io_utils.py
        ├── test_rewards.py
        ├── test_split_str_parts_by.py
        └── test_torch_utils.py