gitextract_9q3kx9l7/ ├── .dev_scripts/ │ ├── build_docs.sh │ ├── ci_container_test.sh │ ├── dockerci.sh │ └── dockerci_npu.sh ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── 1-bug-report.yml │ │ ├── 2-feature-request.yml │ │ ├── 3-question-discussion.yml │ │ └── config.yml │ ├── PULL_REQUEST_TEMPLATE.md │ ├── SECURITY.md │ └── workflows/ │ ├── citest.yaml │ ├── citest_npu.yaml │ ├── close_tale_issue.yaml │ ├── lint.yaml │ └── publish.yaml ├── .gitignore ├── .pre-commit-config.yaml ├── .pre-commit-config_local.yaml ├── CODE_OF_CONDUCT.md ├── CONTRIBUTING.md ├── CONTRIBUTING_CN.md ├── LICENSE ├── MANIFEST.in ├── Makefile ├── README.md ├── README_CN.md ├── docs/ │ ├── Makefile │ ├── README.md │ ├── make.bat │ ├── source/ │ │ ├── .readthedocs.yaml │ │ ├── BestPractices/ │ │ │ ├── Elastic.md │ │ │ ├── Embedding.md │ │ │ ├── GRPO-Code-Training.md │ │ │ ├── GRPO-Multi-Modal-Training.md │ │ │ ├── GRPO.md │ │ │ ├── MLLM-Registration.md │ │ │ ├── Metax-support.md │ │ │ ├── More-Best-Practices.md │ │ │ ├── NPU-support.md │ │ │ ├── Qwen3-Best-Practice.md │ │ │ ├── Qwen3-VL-Best-Practice.md │ │ │ ├── Qwen3_5-Best-Practice.md │ │ │ ├── Rapidly-Training-VL-model.md │ │ │ └── Reranker.md │ │ ├── Customization/ │ │ │ ├── Architecture.md │ │ │ ├── Custom-dataset.md │ │ │ └── Custom-model.md │ │ ├── GetStarted/ │ │ │ ├── Quick-start.md │ │ │ ├── SWIFT-installation.md │ │ │ └── Web-UI.md │ │ ├── Instruction/ │ │ │ ├── Agent-support.md │ │ │ ├── Command-line-parameters.md │ │ │ ├── Evaluation.md │ │ │ ├── Export-and-push.md │ │ │ ├── Frequently-asked-questions.md │ │ │ ├── GKD.md │ │ │ ├── GRPO/ │ │ │ │ ├── AdvancedResearch/ │ │ │ │ │ ├── CHORD.md │ │ │ │ │ ├── CISPO.md │ │ │ │ │ ├── DAPO.md │ │ │ │ │ ├── GSPO.md │ │ │ │ │ ├── REINFORCEPP.md │ │ │ │ │ ├── RLOO.md │ │ │ │ │ ├── SAPO.md │ │ │ │ │ ├── deepeyes.md │ │ │ │ │ ├── entropy_mask.md │ │ │ │ │ ├── index.rst │ │ │ │ │ ├── training_inference_mismatch.md │ │ │ │ │ └── treepo.md │ │ │ │ ├── DeveloperGuide/ │ │ │ │ │ ├── gym_env.md │ │ │ │ │ ├── index.rst │ │ │ │ │ ├── loss_types.md │ │ │ │ │ ├── multi_task.md │ │ │ │ │ ├── multi_turn.md │ │ │ │ │ ├── reward_function.md │ │ │ │ │ └── reward_model.md │ │ │ │ ├── GetStarted/ │ │ │ │ │ ├── GRPO.md │ │ │ │ │ └── index.rst │ │ │ │ └── index.rst │ │ │ ├── Inference-and-deployment.md │ │ │ ├── Pre-training-and-Fine-tuning.md │ │ │ ├── RLHF.md │ │ │ ├── Ray.md │ │ │ ├── Reinforced-Fine-tuning.md │ │ │ ├── Sample.md │ │ │ ├── Supported-models-and-datasets.md │ │ │ └── Use-tuners.md │ │ ├── Megatron-SWIFT/ │ │ │ ├── Ascend.md │ │ │ ├── Command-line-parameters.md │ │ │ ├── GKD.md │ │ │ ├── GRPO.md │ │ │ ├── LoRA-Training.md │ │ │ ├── Mcore-Bridge.md │ │ │ ├── Multimodal-Model.md │ │ │ └── Quick-start.md │ │ ├── _templates/ │ │ │ ├── autosummary/ │ │ │ │ └── class.rst │ │ │ ├── classtemplate.rst │ │ │ └── sobolengine.rst │ │ ├── conf.py │ │ └── index.rst │ └── source_en/ │ ├── .readthedocs.yaml │ ├── BestPractices/ │ │ ├── Elastic.md │ │ ├── Embedding.md │ │ ├── GRPO-Code-Training.md │ │ ├── GRPO-Multi-Modal-Training.md │ │ ├── GRPO.md │ │ ├── MLLM-Registration.md │ │ ├── Metax-support.md │ │ ├── More-Best-Practices.md │ │ ├── NPU-support.md │ │ ├── Qwen3-Best-Practice.md │ │ ├── Qwen3-VL-Best-Practice.md │ │ ├── Qwen3_5-Best-Practice.md │ │ ├── Rapidly-Training-VL-model.md │ │ └── Reranker.md │ ├── Customization/ │ │ ├── Architecture.md │ │ ├── Custom-dataset.md │ │ └── Custom-model.md │ ├── GetStarted/ │ │ ├── Quick-start.md │ │ ├── SWIFT-installation.md │ │ └── Web-UI.md │ ├── Instruction/ │ │ ├── Agent-support.md │ │ ├── Command-line-parameters.md │ │ ├── Evaluation.md │ │ ├── Export-and-push.md │ │ ├── Frequently-asked-questions.md │ │ ├── GKD.md │ │ ├── GRPO/ │ │ │ ├── AdvancedResearch/ │ │ │ │ ├── CHORD.md │ │ │ │ ├── CISPO.md │ │ │ │ ├── DAPO.md │ │ │ │ ├── GSPO.md │ │ │ │ ├── REINFORCEPP.md │ │ │ │ ├── RLOO.md │ │ │ │ ├── SAPO.md │ │ │ │ ├── deepeyes.md │ │ │ │ ├── entropy_mask.md │ │ │ │ ├── index.rst │ │ │ │ ├── training_inference_mismatch.md │ │ │ │ └── treepo.md │ │ │ ├── DeveloperGuide/ │ │ │ │ ├── gym_env.md │ │ │ │ ├── index.rst │ │ │ │ ├── loss_types.md │ │ │ │ ├── multi_task.md │ │ │ │ ├── multi_turn.md │ │ │ │ ├── reward_function.md │ │ │ │ └── reward_model.md │ │ │ ├── GetStarted/ │ │ │ │ ├── GRPO.md │ │ │ │ └── index.rst │ │ │ └── index.rst │ │ ├── Inference-and-deployment.md │ │ ├── Pre-training-and-Fine-tuning.md │ │ ├── RLHF.md │ │ ├── Ray.md │ │ ├── Reinforced-Fine-tuning.md │ │ ├── Sample.md │ │ ├── Supported-models-and-datasets.md │ │ └── Use-tuners.md │ ├── Megatron-SWIFT/ │ │ ├── Ascend.md │ │ ├── Command-line-parameters.md │ │ ├── GKD.md │ │ ├── GRPO.md │ │ ├── LoRA-Training.md │ │ ├── Mcore-Bridge.md │ │ ├── Multimodal-Model.md │ │ └── Quick-start.md │ ├── _templates/ │ │ ├── autosummary/ │ │ │ └── class.rst │ │ ├── classtemplate.rst │ │ └── sobolengine.rst │ ├── conf.py │ └── index.rst ├── examples/ │ ├── README.md │ ├── app/ │ │ ├── base_url/ │ │ │ ├── demo.py │ │ │ └── demo.sh │ │ ├── llm/ │ │ │ ├── sglang.sh │ │ │ └── vllm.sh │ │ └── mllm.sh │ ├── ascend/ │ │ ├── activation_cpu_offload/ │ │ │ ├── fsdp2.json │ │ │ └── train.sh │ │ ├── deploy/ │ │ │ └── vllm.sh │ │ ├── infer/ │ │ │ └── vllm/ │ │ │ └── dp_tp.sh │ │ ├── megatron/ │ │ │ └── train_sft_full.sh │ │ ├── multi-node/ │ │ │ └── megatron/ │ │ │ ├── node1.sh │ │ │ └── node2.sh │ │ └── train/ │ │ ├── qwen3/ │ │ │ ├── qwen3_lora_deepspeed.sh │ │ │ ├── qwen3_lora_fsdp/ │ │ │ │ ├── fsdp.json │ │ │ │ └── train.sh │ │ │ └── qwen3_lora_megatron.sh │ │ ├── qwen3_next/ │ │ │ └── qwen3_next_megatron.sh │ │ ├── qwen3_omni/ │ │ │ └── qwen3_omni_full_mindspeed.sh │ │ └── qwen3_vl/ │ │ └── moe_full_mindspeed.sh │ ├── custom/ │ │ ├── dataset.py │ │ ├── infer.sh │ │ ├── model.py │ │ ├── model_hf.py │ │ ├── my_qwen2_5_omni/ │ │ │ ├── my_register.py │ │ │ ├── test_register.py │ │ │ └── train.py │ │ └── sft.sh │ ├── deploy/ │ │ ├── README.md │ │ ├── agent/ │ │ │ ├── client.py │ │ │ └── server.sh │ │ ├── bert/ │ │ │ ├── client.py │ │ │ └── server.sh │ │ ├── client/ │ │ │ ├── llm/ │ │ │ │ ├── base/ │ │ │ │ │ ├── openai_client.py │ │ │ │ │ └── swift_client.py │ │ │ │ └── chat/ │ │ │ │ ├── openai_client.py │ │ │ │ └── swift_client.py │ │ │ └── mllm/ │ │ │ ├── openai_client.py │ │ │ └── swift_client.py │ │ ├── embedding/ │ │ │ ├── client.py │ │ │ └── server.sh │ │ ├── lora/ │ │ │ ├── client.py │ │ │ └── server.sh │ │ ├── reranker/ │ │ │ ├── client.py │ │ │ ├── client_generative.py │ │ │ └── server.sh │ │ ├── reward_model/ │ │ │ ├── client.py │ │ │ └── server.sh │ │ ├── seq_cls/ │ │ │ ├── client.py │ │ │ └── server.sh │ │ ├── sglang.sh │ │ ├── vllm.sh │ │ └── vllm_dp.sh │ ├── eval/ │ │ ├── eval_url/ │ │ │ ├── demo.py │ │ │ └── eval.sh │ │ ├── llm/ │ │ │ ├── sglang.sh │ │ │ └── vllm.sh │ │ ├── train_eval/ │ │ │ └── train.sh │ │ └── vlm/ │ │ └── eval.sh │ ├── export/ │ │ ├── merge_lora.sh │ │ ├── ollama.sh │ │ ├── push_to_hub.sh │ │ └── quantize/ │ │ ├── awq.sh │ │ ├── bert/ │ │ │ ├── bnb.sh │ │ │ └── gptq.sh │ │ ├── bnb.sh │ │ ├── fp8.sh │ │ ├── gptq.sh │ │ ├── gptq_v2.sh │ │ ├── mllm/ │ │ │ ├── awq.sh │ │ │ ├── bnb.sh │ │ │ ├── fp8.sh │ │ │ └── gptq.sh │ │ ├── moe/ │ │ │ ├── awq.sh │ │ │ ├── bnb.sh │ │ │ ├── fp8.sh │ │ │ └── gptq.sh │ │ ├── omni/ │ │ │ └── gptq.sh │ │ └── reward_model/ │ │ ├── bnb.sh │ │ └── gptq.sh │ ├── infer/ │ │ ├── cli_demo.sh │ │ ├── demo.py │ │ ├── demo_agent.py │ │ ├── demo_bert.py │ │ ├── demo_embedding.py │ │ ├── demo_grounding.py │ │ ├── demo_hf.py │ │ ├── demo_lora.py │ │ ├── demo_mllm.py │ │ ├── demo_reranker.py │ │ ├── demo_reward_model.py │ │ ├── demo_vllm_reasoning_parser.py │ │ ├── lmdeploy/ │ │ │ ├── batch_ddp.sh │ │ │ └── mllm_tp.sh │ │ ├── sglang/ │ │ │ ├── demo.sh │ │ │ ├── distill_qwen3_235b.sh │ │ │ ├── mtp.sh │ │ │ └── tp.sh │ │ ├── transformers/ │ │ │ ├── batch_ddp.sh │ │ │ ├── bert.sh │ │ │ ├── lora.sh │ │ │ ├── mllm_device_map.sh │ │ │ ├── prm.sh │ │ │ └── reward_model.sh │ │ └── vllm/ │ │ ├── dp_tp.sh │ │ ├── mllm_ddp.sh │ │ ├── mllm_tp.sh │ │ └── mtp.sh │ ├── megatron/ │ │ ├── base_to_chat.sh │ │ ├── benchmark/ │ │ │ └── deepspeed.sh │ │ ├── dense/ │ │ │ ├── 72b_offload.sh │ │ │ └── qwen3_32b.sh │ │ ├── embedding/ │ │ │ ├── qwen3_emb.sh │ │ │ └── qwen3_vl_emb.sh │ │ ├── export/ │ │ │ ├── full.sh │ │ │ └── lora.sh │ │ ├── fp8/ │ │ │ ├── benchmark.sh │ │ │ ├── llm.sh │ │ │ └── vlm.sh │ │ ├── grpo/ │ │ │ ├── dense_colocate.sh │ │ │ ├── dense_server.sh │ │ │ ├── moe_colocate_full.sh │ │ │ ├── moe_colocate_lora.sh │ │ │ └── sapo.sh │ │ ├── long_text.sh │ │ ├── lora/ │ │ │ ├── dense.sh │ │ │ ├── dpo.sh │ │ │ ├── loss_scale.sh │ │ │ ├── moe.sh │ │ │ ├── mtp.sh │ │ │ ├── new_special_tokens.sh │ │ │ └── qwen3_235b.sh │ │ ├── mcore_bridge/ │ │ │ ├── full/ │ │ │ │ ├── dense.sh │ │ │ │ └── moe.sh │ │ │ └── lora/ │ │ │ ├── moe.sh │ │ │ ├── new_special_tokens.sh │ │ │ └── seq_cls.sh │ │ ├── moe/ │ │ │ ├── deepseek_v3.sh │ │ │ ├── moe.sh │ │ │ ├── qwen3_moe.sh │ │ │ └── qwen3_moe_offload.sh │ │ ├── multi-node/ │ │ │ ├── node1.sh │ │ │ └── node2.sh │ │ ├── multimodal/ │ │ │ ├── dense/ │ │ │ │ ├── dpo.sh │ │ │ │ ├── full.sh │ │ │ │ └── lora.sh │ │ │ ├── lora_llm_vit_full/ │ │ │ │ └── sft.sh │ │ │ ├── moe/ │ │ │ │ ├── full_dpo_offload.sh │ │ │ │ └── lora.sh │ │ │ └── omni/ │ │ │ ├── dense.sh │ │ │ └── moe.sh │ │ ├── pretrain.sh │ │ ├── reranker/ │ │ │ ├── qwen3_reranker.sh │ │ │ └── qwen3_vl_reranker.sh │ │ ├── rlhf/ │ │ │ ├── dpo/ │ │ │ │ ├── dense.sh │ │ │ │ ├── group_by_length.sh │ │ │ │ ├── moe.sh │ │ │ │ └── packing.sh │ │ │ ├── gkd/ │ │ │ │ ├── dense.sh │ │ │ │ ├── opsd.sh │ │ │ │ └── teacher_server.sh │ │ │ ├── kto/ │ │ │ │ ├── dense.sh │ │ │ │ └── moe.sh │ │ │ └── rm/ │ │ │ ├── dense.sh │ │ │ └── moe.sh │ │ ├── seq_cls/ │ │ │ ├── full.sh │ │ │ └── lora/ │ │ │ ├── infer.sh │ │ │ └── train.sh │ │ └── sft.sh │ ├── models/ │ │ ├── deepseek_ocr/ │ │ │ ├── infer.py │ │ │ └── train.sh │ │ ├── deepseek_vl2/ │ │ │ └── train.sh │ │ ├── glm-4.6v/ │ │ │ ├── flash.sh │ │ │ └── mcore.sh │ │ ├── gpt_oss/ │ │ │ ├── internvl3_5_gpt.sh │ │ │ ├── mcore.sh │ │ │ └── train.sh │ │ ├── hunyuan_ocr/ │ │ │ └── train.sh │ │ ├── internvl3/ │ │ │ └── train.sh │ │ ├── keye/ │ │ │ └── train.sh │ │ ├── llama4/ │ │ │ └── mcore.sh │ │ ├── minicpmv/ │ │ │ └── train.sh │ │ ├── ovis2/ │ │ │ └── train.sh │ │ ├── qwen3_5/ │ │ │ ├── mcore.sh │ │ │ ├── mcore_full.sh │ │ │ ├── mcore_grpo_moe.sh │ │ │ ├── packing.sh │ │ │ └── transformers.sh │ │ ├── qwen3_next/ │ │ │ ├── mcore.sh │ │ │ ├── mtp.sh │ │ │ ├── non_padding_free.sh │ │ │ └── transformers.sh │ │ ├── qwen3_omni/ │ │ │ ├── transformers.sh │ │ │ └── zero3.sh │ │ └── qwen3_vl/ │ │ ├── mcore.sh │ │ ├── mcore_full.sh │ │ ├── mixed.sh │ │ ├── transformers.sh │ │ └── zero3.sh │ ├── notebook/ │ │ ├── qwen2_5-self-cognition/ │ │ │ ├── infer.ipynb │ │ │ ├── infer.sh │ │ │ ├── self-cognition-sft.ipynb │ │ │ └── sft.sh │ │ ├── qwen2_5-vl-grounding/ │ │ │ └── zh.ipynb │ │ └── qwen2vl-ocr/ │ │ ├── infer.ipynb │ │ └── ocr-sft.ipynb │ ├── sampler/ │ │ ├── distill/ │ │ │ ├── distill.sh │ │ │ └── distill.yaml │ │ └── sample/ │ │ ├── sample.sh │ │ └── sampling.yaml │ ├── train/ │ │ ├── agent/ │ │ │ ├── deepseek_r1.sh │ │ │ ├── glm4.sh │ │ │ ├── loss_scale/ │ │ │ │ ├── infer_lora.py │ │ │ │ └── train.sh │ │ │ └── qwen2_5.sh │ │ ├── all_to_all/ │ │ │ ├── infer.sh │ │ │ └── train.sh │ │ ├── base_to_chat/ │ │ │ ├── full.sh │ │ │ ├── lora.sh │ │ │ └── lora2.sh │ │ ├── cached_dataset/ │ │ │ ├── dpo.sh │ │ │ ├── mcore.sh │ │ │ ├── pretrained.sh │ │ │ ├── reranker.sh │ │ │ ├── seq_cls.sh │ │ │ ├── sft.sh │ │ │ └── vlm.sh │ │ ├── early_stop/ │ │ │ └── lora_sft.sh │ │ ├── embedding/ │ │ │ ├── qwen3/ │ │ │ │ ├── infer.py │ │ │ │ ├── qwen3_emb.sh │ │ │ │ └── qwen3_vl_emb.sh │ │ │ └── train_gme.sh │ │ ├── flash_attention_3/ │ │ │ ├── mcore.sh │ │ │ └── transformers.sh │ │ ├── full/ │ │ │ ├── dft.sh │ │ │ ├── infer.sh │ │ │ ├── qwen2_5_32b.sh │ │ │ └── train.sh │ │ ├── grpo/ │ │ │ ├── external/ │ │ │ │ ├── README.md │ │ │ │ ├── agent.sh │ │ │ │ ├── grpo_32b_full.sh │ │ │ │ ├── grpo_7b.sh │ │ │ │ ├── moe_full.sh │ │ │ │ ├── moe_lora.sh │ │ │ │ ├── vllm_gym.sh │ │ │ │ └── vllm_multi_turn.sh │ │ │ ├── internal/ │ │ │ │ ├── README.md │ │ │ │ ├── chord.sh │ │ │ │ ├── full_lmdeploy.sh │ │ │ │ ├── gspo.sh │ │ │ │ ├── moe_full.sh │ │ │ │ ├── moe_lora.sh │ │ │ │ ├── qlora.sh │ │ │ │ ├── reinforce_plus_plus.sh │ │ │ │ ├── rloo.sh │ │ │ │ ├── sapo.sh │ │ │ │ ├── transformers.sh │ │ │ │ ├── vllm_72b_4gpu.sh │ │ │ │ ├── vllm_lora_qwenvl72b.sh │ │ │ │ ├── vllm_multi_turn.sh │ │ │ │ └── vllm_vl7b.sh │ │ │ ├── multi_node/ │ │ │ │ ├── Qwen2_5_32B_full.sh │ │ │ │ ├── colocate_multi_node1.sh │ │ │ │ ├── colocate_multi_node2.sh │ │ │ │ ├── server_multi_node.sh │ │ │ │ └── train_dlc.sh │ │ │ ├── plugin/ │ │ │ │ ├── deepeyes/ │ │ │ │ │ ├── deepeyes.sh │ │ │ │ │ └── deepeyes_plugin.py │ │ │ │ ├── gsm8k/ │ │ │ │ │ ├── gsm8k.sh │ │ │ │ │ └── gsm8k_plugin.py │ │ │ │ ├── plugin.py │ │ │ │ ├── run_external_reward_func.sh │ │ │ │ ├── run_external_reward_model.sh │ │ │ │ ├── run_external_scheduler.sh │ │ │ │ └── treepo/ │ │ │ │ ├── tree_rollout.py │ │ │ │ ├── tree_rollout.sh │ │ │ │ └── tree_rollout_plugin.py │ │ │ ├── prompt.txt │ │ │ └── qwen2_5_omni/ │ │ │ ├── grpo.sh │ │ │ └── infer.sh │ │ ├── infer.sh │ │ ├── liger/ │ │ │ └── sft.sh │ │ ├── lora_sft.sh │ │ ├── moe/ │ │ │ ├── llama4.sh │ │ │ └── qwen3_moe.sh │ │ ├── multi-gpu/ │ │ │ ├── ddp/ │ │ │ │ └── train.sh │ │ │ ├── ddp_device_map/ │ │ │ │ └── train.sh │ │ │ ├── deepspeed/ │ │ │ │ ├── train_zero2.sh │ │ │ │ └── train_zero3.sh │ │ │ ├── device_map/ │ │ │ │ └── train.sh │ │ │ ├── fsdp2_lora/ │ │ │ │ ├── fsdp2.json │ │ │ │ └── train.sh │ │ │ └── fsdp_qlora/ │ │ │ ├── fsdp_offload.json │ │ │ └── train.sh │ │ ├── multi-node/ │ │ │ ├── accelerate/ │ │ │ │ ├── multi_node.yaml │ │ │ │ ├── train_node1.sh │ │ │ │ └── train_node2.sh │ │ │ ├── deepspeed/ │ │ │ │ ├── README.md │ │ │ │ ├── host.txt │ │ │ │ └── train.sh │ │ │ ├── dlc/ │ │ │ │ └── train.sh │ │ │ ├── ray/ │ │ │ │ ├── sft.sh │ │ │ │ └── sft.yaml │ │ │ ├── swift/ │ │ │ │ ├── train_node1.sh │ │ │ │ └── train_node2.sh │ │ │ └── torchrun/ │ │ │ ├── train_node1.sh │ │ │ └── train_node2.sh │ │ ├── multimodal/ │ │ │ ├── audio.sh │ │ │ ├── caption.sh │ │ │ ├── grounding.sh │ │ │ ├── infer.sh │ │ │ ├── lora_llm_full_vit/ │ │ │ │ ├── infer.sh │ │ │ │ ├── merge_lora.sh │ │ │ │ ├── seq_cls.sh │ │ │ │ └── sft.sh │ │ │ ├── ocr.sh │ │ │ ├── omni/ │ │ │ │ ├── infer.sh │ │ │ │ └── sft.sh │ │ │ ├── rlhf/ │ │ │ │ ├── dpo/ │ │ │ │ │ ├── full.sh │ │ │ │ │ └── lora.sh │ │ │ │ ├── gkd/ │ │ │ │ │ ├── fast.sh │ │ │ │ │ └── full.sh │ │ │ │ └── kto.sh │ │ │ ├── video.sh │ │ │ └── vit_gradient_checkpointing.sh │ │ ├── new_special_tokens/ │ │ │ ├── infer.sh │ │ │ ├── merge_lora.sh │ │ │ ├── tokens.txt │ │ │ └── train.sh │ │ ├── on_policy_distillation.sh │ │ ├── optimizer/ │ │ │ ├── muon.sh │ │ │ └── muonclip.sh │ │ ├── packing/ │ │ │ ├── dpo.sh │ │ │ ├── dpo_vlm.sh │ │ │ ├── liger_kernel.sh │ │ │ ├── llm.sh │ │ │ ├── qwen2_5_omni.sh │ │ │ ├── qwen2_5_vl.sh │ │ │ └── streaming.sh │ │ ├── padding_free/ │ │ │ ├── dpo_vlm.sh │ │ │ └── sft.sh │ │ ├── plugins/ │ │ │ ├── loss_scale.sh │ │ │ └── tuner_phi4_mm.sh │ │ ├── predict_with_generate/ │ │ │ └── train.sh │ │ ├── pretrain/ │ │ │ └── train.sh │ │ ├── qlora/ │ │ │ ├── awq/ │ │ │ │ ├── merge_lora.sh │ │ │ │ └── train.sh │ │ │ ├── bnb/ │ │ │ │ ├── merge_lora.sh │ │ │ │ └── train.sh │ │ │ ├── gptq.sh │ │ │ └── hqq.sh │ │ ├── reranker/ │ │ │ ├── qwen3/ │ │ │ │ ├── infer.py │ │ │ │ ├── qwen3_reranker.sh │ │ │ │ └── qwen3_vl_reranker.sh │ │ │ ├── train_generative_reranker.sh │ │ │ ├── train_generative_reranker_listwise.sh │ │ │ ├── train_reranker.sh │ │ │ ├── train_reranker_auto_patch.sh │ │ │ ├── train_reranker_listwise.sh │ │ │ └── train_reranker_mm.sh │ │ ├── rft/ │ │ │ ├── math.json │ │ │ └── rft.py │ │ ├── rlhf/ │ │ │ ├── README.md │ │ │ ├── cpo.sh │ │ │ ├── dpo/ │ │ │ │ ├── full.sh │ │ │ │ └── lora.sh │ │ │ ├── gkd/ │ │ │ │ ├── fast.sh │ │ │ │ ├── full.sh │ │ │ │ ├── teacher_server.sh │ │ │ │ ├── think_model.sh │ │ │ │ ├── vllm_colocate.sh │ │ │ │ └── vllm_server.sh │ │ │ ├── kto.sh │ │ │ ├── mpo.sh │ │ │ ├── opsd/ │ │ │ │ ├── opsd.sh │ │ │ │ └── opsd_plugin.py │ │ │ ├── orpo.sh │ │ │ ├── ppo/ │ │ │ │ ├── full.sh │ │ │ │ └── lora.sh │ │ │ ├── rm.sh │ │ │ └── simpo.sh │ │ ├── seq_cls/ │ │ │ ├── bert/ │ │ │ │ ├── deploy.sh │ │ │ │ ├── infer.sh │ │ │ │ └── sft.sh │ │ │ ├── multi_label/ │ │ │ │ ├── infer.py │ │ │ │ ├── infer.sh │ │ │ │ ├── sft.sh │ │ │ │ └── vlm.sh │ │ │ ├── qwen2_5/ │ │ │ │ ├── deploy.sh │ │ │ │ ├── infer.sh │ │ │ │ └── sft.sh │ │ │ ├── qwen2_5_omni/ │ │ │ │ ├── infer.py │ │ │ │ ├── infer.sh │ │ │ │ └── sft.sh │ │ │ └── regression/ │ │ │ ├── deploy.sh │ │ │ ├── infer.sh │ │ │ └── sft.sh │ │ ├── sequence_parallel/ │ │ │ ├── sequence_parallel.sh │ │ │ ├── sequence_parallel_512k.sh │ │ │ ├── sequence_parallel_dpo.sh │ │ │ ├── sequence_parallel_emb.sh │ │ │ ├── sequence_parallel_grpo.sh │ │ │ ├── sequence_parallel_reranker.sh │ │ │ └── sequence_parallel_seq_cls.sh │ │ ├── streaming/ │ │ │ ├── lazy_tokenize.sh │ │ │ └── streaming.sh │ │ ├── think_model/ │ │ │ ├── deepseek_r1.sh │ │ │ ├── qwen3_demo1.sh │ │ │ └── qwen3_demo2.sh │ │ └── tuners/ │ │ ├── adalora/ │ │ │ └── train.sh │ │ ├── adapter/ │ │ │ └── train.sh │ │ ├── boft/ │ │ │ └── train.sh │ │ ├── bone/ │ │ │ └── train.sh │ │ ├── dora/ │ │ │ └── train.sh │ │ ├── galore/ │ │ │ ├── train_galore.sh │ │ │ └── train_qgalore.sh │ │ ├── lisa/ │ │ │ └── train.sh │ │ ├── llamapro/ │ │ │ └── train.sh │ │ ├── longlora/ │ │ │ └── train.sh │ │ ├── lora/ │ │ │ └── train.sh │ │ ├── lora-ga/ │ │ │ └── train.sh │ │ ├── neftune/ │ │ │ └── train.sh │ │ ├── olora/ │ │ │ └── train.sh │ │ ├── pissa/ │ │ │ └── train.sh │ │ ├── qlora/ │ │ │ └── train.sh │ │ ├── reft/ │ │ │ └── train.sh │ │ └── unsloth/ │ │ └── train.sh │ └── yaml/ │ ├── sft.sh │ └── sft.yaml ├── requirements/ │ ├── docs.txt │ ├── eval.txt │ ├── framework.txt │ ├── install_all.sh │ ├── ray.txt │ ├── swanlab.txt │ └── tests.txt ├── requirements.txt ├── scripts/ │ ├── benchmark/ │ │ ├── config/ │ │ │ └── tuner.json │ │ ├── exp.py │ │ ├── exp_utils.py │ │ └── generate_report.py │ └── utils/ │ ├── plot_loss.py │ ├── run_dataset_info.py │ ├── run_model_info.py │ ├── run_template.py │ └── test_link_valid.py ├── setup.cfg ├── setup.py ├── swift/ │ ├── __init__.py │ ├── agent_template/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── deepseek_v3_1.py │ │ ├── extra.py │ │ ├── glm4.py │ │ ├── hermes.py │ │ ├── llama.py │ │ ├── mapping.py │ │ ├── minimax_m2.py │ │ ├── mistral.py │ │ ├── qwen.py │ │ ├── qwen3_coder.py │ │ ├── react.py │ │ ├── seed_oss.py │ │ ├── toolbench.py │ │ └── youtu.py │ ├── arguments/ │ │ ├── __init__.py │ │ ├── app_args.py │ │ ├── base_args/ │ │ │ ├── __init__.py │ │ │ ├── base_args.py │ │ │ ├── data_args.py │ │ │ ├── generation_args.py │ │ │ ├── model_args.py │ │ │ ├── quant_args.py │ │ │ └── template_args.py │ │ ├── deploy_args.py │ │ ├── eval_args.py │ │ ├── export_args.py │ │ ├── infer_args.py │ │ ├── merge_args.py │ │ ├── pretrain_args.py │ │ ├── rlhf_args.py │ │ ├── sampling_args.py │ │ ├── sft_args.py │ │ ├── tuner_args.py │ │ └── webui_args.py │ ├── callbacks/ │ │ ├── __init__.py │ │ ├── activation_cpu_offload.py │ │ ├── adalora.py │ │ ├── base.py │ │ ├── deepspeed_elastic.py │ │ ├── early_stop.py │ │ ├── lisa.py │ │ ├── mapping.py │ │ └── perf_log.py │ ├── cli/ │ │ ├── __init__.py │ │ ├── _megatron/ │ │ │ ├── __init__.py │ │ │ ├── export.py │ │ │ ├── main.py │ │ │ ├── pt.py │ │ │ ├── rlhf.py │ │ │ └── sft.py │ │ ├── app.py │ │ ├── deploy.py │ │ ├── eval.py │ │ ├── export.py │ │ ├── infer.py │ │ ├── main.py │ │ ├── merge_lora.py │ │ ├── pt.py │ │ ├── rlhf.py │ │ ├── rollout.py │ │ ├── sample.py │ │ ├── sft.py │ │ ├── utils.py │ │ └── web_ui.py │ ├── config/ │ │ ├── fsdp2.json │ │ ├── zero0.json │ │ ├── zero1.json │ │ ├── zero2.json │ │ ├── zero2_offload.json │ │ ├── zero3.json │ │ └── zero3_offload.json │ ├── dataloader/ │ │ ├── __init__.py │ │ ├── dispatcher.py │ │ └── shard.py │ ├── dataset/ │ │ ├── __init__.py │ │ ├── data/ │ │ │ └── dataset_info.json │ │ ├── dataset/ │ │ │ ├── __init__.py │ │ │ ├── llm.py │ │ │ └── mllm.py │ │ ├── dataset_meta.py │ │ ├── dataset_syntax.py │ │ ├── indexed_dataset.py │ │ ├── loader.py │ │ ├── media.py │ │ ├── packing.py │ │ ├── preprocessor/ │ │ │ ├── __init__.py │ │ │ ├── core.py │ │ │ └── extra.py │ │ ├── register.py │ │ └── utils.py │ ├── hub/ │ │ ├── __init__.py │ │ ├── constant.py │ │ └── hub.py │ ├── infer_engine/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── grpo_vllm_engine.py │ │ ├── infer_client.py │ │ ├── infer_engine.py │ │ ├── lmdeploy_engine.py │ │ ├── patch.py │ │ ├── protocol.py │ │ ├── sglang_engine.py │ │ ├── transformers_engine.py │ │ ├── utils.py │ │ └── vllm_engine.py │ ├── loss/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── causal_lm.py │ │ ├── embedding.py │ │ ├── mapping.py │ │ └── reranker.py │ ├── loss_scale/ │ │ ├── __init__.py │ │ ├── agent.py │ │ ├── base.py │ │ ├── config/ │ │ │ ├── agentflan.json │ │ │ ├── alpha_umi.json │ │ │ ├── hermes.json │ │ │ ├── ignore_empty_think.json │ │ │ ├── qwen.json │ │ │ └── react.json │ │ ├── mapping.py │ │ ├── other.py │ │ └── utils.py │ ├── megatron/ │ │ ├── __init__.py │ │ ├── arguments/ │ │ │ ├── __init__.py │ │ │ ├── export_args.py │ │ │ ├── megatron_args.py │ │ │ ├── megatron_base_args.py │ │ │ ├── pretrain_args.py │ │ │ ├── rlhf_args.py │ │ │ └── sft_args.py │ │ ├── callbacks/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── default_flow.py │ │ │ ├── mapping.py │ │ │ ├── print.py │ │ │ ├── swanlab.py │ │ │ ├── tensorboard.py │ │ │ ├── utils.py │ │ │ └── wandb.py │ │ ├── convert.py │ │ ├── init.py │ │ ├── model/ │ │ │ ├── __init__.py │ │ │ ├── constant.py │ │ │ ├── gpt_bridge.py │ │ │ ├── gpt_model.py │ │ │ ├── gpts/ │ │ │ │ ├── __init__.py │ │ │ │ ├── glm4.py │ │ │ │ ├── minimax_m2.py │ │ │ │ ├── olmoe.py │ │ │ │ ├── qwen3_emb.py │ │ │ │ └── qwen3_next.py │ │ │ ├── mm_gpt_model.py │ │ │ ├── mm_gpts/ │ │ │ │ ├── __init__.py │ │ │ │ ├── glm.py │ │ │ │ ├── internvl.py │ │ │ │ ├── kimi_vl.py │ │ │ │ ├── llama4.py │ │ │ │ ├── qwen.py │ │ │ │ ├── qwen3_5.py │ │ │ │ ├── qwen3_5_gdn.py │ │ │ │ ├── qwen3_vl.py │ │ │ │ └── utils.py │ │ │ ├── model_config.py │ │ │ ├── modules/ │ │ │ │ ├── __init__.py │ │ │ │ ├── gated_delta_net.py │ │ │ │ └── gated_self_attention.py │ │ │ ├── register.py │ │ │ └── rope.py │ │ ├── pipelines/ │ │ │ ├── __init__.py │ │ │ ├── export/ │ │ │ │ ├── __init__.py │ │ │ │ └── export.py │ │ │ └── train/ │ │ │ ├── __init__.py │ │ │ ├── pretrain.py │ │ │ ├── rlhf.py │ │ │ └── sft.py │ │ ├── trainers/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── batch_sampler.py │ │ │ ├── dpo_trainer.py │ │ │ ├── embedding_trainer.py │ │ │ ├── gkd_trainer.py │ │ │ ├── grpo_trainer.py │ │ │ ├── kto_trainer.py │ │ │ ├── reranker_trainer.py │ │ │ ├── reward_trainer.py │ │ │ ├── rlhf_mixin.py │ │ │ ├── rollout_mixin.py │ │ │ ├── trainer.py │ │ │ ├── utils.py │ │ │ └── vocab_parallel_utils.py │ │ ├── tuners/ │ │ │ ├── __init__.py │ │ │ └── lora.py │ │ └── utils/ │ │ ├── __init__.py │ │ ├── convert_utils.py │ │ ├── megatron_lm_utils.py │ │ ├── parallel_utils.py │ │ ├── patcher.py │ │ └── utils.py │ ├── metrics/ │ │ ├── __init__.py │ │ ├── acc.py │ │ ├── base.py │ │ ├── embedding.py │ │ ├── mapping.py │ │ ├── nlg.py │ │ ├── reranker.py │ │ └── utils.py │ ├── model/ │ │ ├── __init__.py │ │ ├── constant.py │ │ ├── model_arch.py │ │ ├── model_meta.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── baai.py │ │ │ ├── baichuan.py │ │ │ ├── baidu.py │ │ │ ├── bert.py │ │ │ ├── codefuse.py │ │ │ ├── deepseek.py │ │ │ ├── gemma.py │ │ │ ├── glm.py │ │ │ ├── internlm.py │ │ │ ├── llama.py │ │ │ ├── llava.py │ │ │ ├── llm.py │ │ │ ├── mamba.py │ │ │ ├── microsoft.py │ │ │ ├── minicpm.py │ │ │ ├── minimax.py │ │ │ ├── mistral.py │ │ │ ├── mllm.py │ │ │ ├── moonshot.py │ │ │ ├── mplug.py │ │ │ ├── openbuddy.py │ │ │ ├── qwen.py │ │ │ ├── seed.py │ │ │ ├── skywork.py │ │ │ ├── stepfun.py │ │ │ ├── telechat.py │ │ │ ├── tencent.py │ │ │ ├── valley.py │ │ │ └── yi.py │ │ ├── npu_patcher.py │ │ ├── patcher.py │ │ ├── register.py │ │ └── utils.py │ ├── optimizers/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── galore/ │ │ │ ├── __init__.py │ │ │ ├── adafactor.py │ │ │ ├── adamw.py │ │ │ ├── adamw8bit.py │ │ │ ├── galore_projector.py │ │ │ └── utils.py │ │ ├── lorap.py │ │ ├── mapping.py │ │ ├── multimodal.py │ │ ├── muon.py │ │ └── muonclip.py │ ├── pipelines/ │ │ ├── __init__.py │ │ ├── app/ │ │ │ ├── __init__.py │ │ │ ├── app.py │ │ │ ├── build_ui.py │ │ │ └── locale.py │ │ ├── base.py │ │ ├── eval/ │ │ │ ├── __init__.py │ │ │ ├── eval.py │ │ │ └── utils.py │ │ ├── export/ │ │ │ ├── __init__.py │ │ │ ├── cached_dataset.py │ │ │ ├── export.py │ │ │ ├── merge_lora.py │ │ │ ├── ollama.py │ │ │ └── quant.py │ │ ├── infer/ │ │ │ ├── __init__.py │ │ │ ├── deploy.py │ │ │ ├── infer.py │ │ │ ├── rollout.py │ │ │ └── utils.py │ │ ├── sampling/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── distill_sampler.py │ │ │ ├── sampling.py │ │ │ ├── utils.py │ │ │ └── vanilla_sampler.py │ │ ├── train/ │ │ │ ├── __init__.py │ │ │ ├── kto.py │ │ │ ├── pretrain.py │ │ │ ├── rlhf.py │ │ │ ├── sft.py │ │ │ └── tuner.py │ │ └── utils.py │ ├── ray/ │ │ ├── __init__.py │ │ ├── arguments.py │ │ ├── base.py │ │ └── resource_manager.py │ ├── rewards/ │ │ ├── __init__.py │ │ ├── orm.py │ │ ├── prm.py │ │ └── rm_plugin.py │ ├── rlhf_trainers/ │ │ ├── __init__.py │ │ ├── args_mixin.py │ │ ├── arguments.py │ │ ├── cpo_trainer.py │ │ ├── dpo_trainer.py │ │ ├── gkd_trainer.py │ │ ├── grpo_trainer.py │ │ ├── kto_trainer.py │ │ ├── orpo_trainer.py │ │ ├── ppo_trainer.py │ │ ├── reward_trainer.py │ │ ├── rlhf_mixin.py │ │ ├── rollout_mixin.py │ │ ├── utils.py │ │ └── vllm_client.py │ ├── rollout/ │ │ ├── __init__.py │ │ ├── gym_env.py │ │ └── multi_turn.py │ ├── sequence_parallel/ │ │ ├── __init__.py │ │ ├── ulysses.py │ │ ├── utils.py │ │ └── zigzag_ring_attn.py │ ├── template/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── constant.py │ │ ├── grounding.py │ │ ├── register.py │ │ ├── template_inputs.py │ │ ├── template_meta.py │ │ ├── templates/ │ │ │ ├── __init__.py │ │ │ ├── baai.py │ │ │ ├── baidu.py │ │ │ ├── bert.py │ │ │ ├── deepseek.py │ │ │ ├── dots.py │ │ │ ├── gemma.py │ │ │ ├── glm.py │ │ │ ├── idefics3.py │ │ │ ├── internlm.py │ │ │ ├── internvl.py │ │ │ ├── kwai.py │ │ │ ├── llama.py │ │ │ ├── llava.py │ │ │ ├── llm.py │ │ │ ├── megrez.py │ │ │ ├── microsoft.py │ │ │ ├── midashenglm.py │ │ │ ├── minicpm.py │ │ │ ├── minimax.py │ │ │ ├── minimind.py │ │ │ ├── mistral.py │ │ │ ├── molmo.py │ │ │ ├── moonshot.py │ │ │ ├── mplug.py │ │ │ ├── openbuddy.py │ │ │ ├── pixtral.py │ │ │ ├── qwen.py │ │ │ ├── seed.py │ │ │ ├── stepfun.py │ │ │ ├── tencent.py │ │ │ ├── utils.py │ │ │ ├── valley.py │ │ │ └── yi.py │ │ ├── utils.py │ │ └── vision_utils.py │ ├── trainers/ │ │ ├── __init__.py │ │ ├── arguments.py │ │ ├── embedding_trainer.py │ │ ├── mixin.py │ │ ├── patcher.py │ │ ├── reranker_trainer.py │ │ ├── seq2seq_trainer.py │ │ ├── trainer.py │ │ ├── trainer_factory.py │ │ └── utils.py │ ├── tuner_plugin/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── dummy.py │ │ ├── ia3.py │ │ ├── lora_llm.py │ │ └── mapping.py │ ├── tuners/ │ │ ├── __init__.py │ │ ├── adapter.py │ │ ├── base.py │ │ ├── llamapro.py │ │ ├── longlora/ │ │ │ ├── __init__.py │ │ │ ├── llama.py │ │ │ └── longlora.py │ │ ├── lora.py │ │ ├── lora_layers.py │ │ ├── mapping.py │ │ ├── neftune.py │ │ ├── part.py │ │ ├── peft.py │ │ ├── prompt.py │ │ ├── reft.py │ │ ├── restuning.py │ │ ├── restuning_components.py │ │ ├── scetuning/ │ │ │ ├── __init__.py │ │ │ ├── scetuning.py │ │ │ └── scetuning_components.py │ │ ├── side.py │ │ └── utils.py │ ├── ui/ │ │ ├── __init__.py │ │ ├── app.py │ │ ├── base.py │ │ ├── llm_eval/ │ │ │ ├── __init__.py │ │ │ ├── eval.py │ │ │ ├── llm_eval.py │ │ │ ├── model.py │ │ │ └── runtime.py │ │ ├── llm_export/ │ │ │ ├── __init__.py │ │ │ ├── export.py │ │ │ ├── llm_export.py │ │ │ ├── model.py │ │ │ └── runtime.py │ │ ├── llm_grpo/ │ │ │ ├── __init__.py │ │ │ ├── advanced.py │ │ │ ├── dataset.py │ │ │ ├── external_rollout.py │ │ │ ├── external_runtime.py │ │ │ ├── grpo_advanced.py │ │ │ ├── hyper.py │ │ │ ├── llm_grpo.py │ │ │ ├── lora.py │ │ │ ├── model.py │ │ │ ├── optimizer.py │ │ │ ├── quantization.py │ │ │ ├── report_to.py │ │ │ ├── reward.py │ │ │ ├── rollout.py │ │ │ ├── runtime.py │ │ │ ├── save.py │ │ │ ├── target.py │ │ │ └── tuner.py │ │ ├── llm_infer/ │ │ │ ├── __init__.py │ │ │ ├── generate.py │ │ │ ├── llm_infer.py │ │ │ ├── model.py │ │ │ └── runtime.py │ │ ├── llm_rlhf/ │ │ │ ├── __init__.py │ │ │ ├── advanced.py │ │ │ ├── dataset.py │ │ │ ├── hyper.py │ │ │ ├── llm_rlhf.py │ │ │ ├── lora.py │ │ │ ├── model.py │ │ │ ├── optimizer.py │ │ │ ├── quantization.py │ │ │ ├── report_to.py │ │ │ ├── rlhf.py │ │ │ ├── runtime.py │ │ │ ├── save.py │ │ │ ├── target.py │ │ │ └── tuner.py │ │ ├── llm_sample/ │ │ │ ├── __init__.py │ │ │ ├── llm_sample.py │ │ │ ├── model.py │ │ │ ├── runtime.py │ │ │ └── sample.py │ │ └── llm_train/ │ │ ├── __init__.py │ │ ├── advanced.py │ │ ├── dataset.py │ │ ├── hyper.py │ │ ├── llm_train.py │ │ ├── lora.py │ │ ├── model.py │ │ ├── optimizer.py │ │ ├── quantization.py │ │ ├── report_to.py │ │ ├── runtime.py │ │ ├── save.py │ │ ├── self_cog.py │ │ ├── target.py │ │ ├── task.py │ │ ├── tuner.py │ │ └── utils.py │ ├── utils/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── dequantizer.py │ │ ├── env.py │ │ ├── hf_config.py │ │ ├── hub_utils.py │ │ ├── import_utils.py │ │ ├── io_utils.py │ │ ├── logger.py │ │ ├── np_utils.py │ │ ├── processor_utils.py │ │ ├── safetensors.py │ │ ├── shutdown_manager.py │ │ ├── tb_utils.py │ │ ├── torch_utils.py │ │ ├── transformers_utils.py │ │ └── utils.py │ └── version.py └── tests/ ├── __init__.py ├── app/ │ └── test_app.py ├── deploy/ │ ├── test_dataset.py │ └── test_logprobs.py ├── eval/ │ └── test_eval.py ├── export/ │ └── test_quant.py ├── general/ │ ├── test_arch.py │ ├── test_dataset.py │ ├── test_model.py │ ├── test_stream.py │ └── test_template.py ├── hub/ │ ├── __init__.py │ └── test_check_model.py ├── infer/ │ ├── test_agent.py │ ├── test_infer.py │ ├── test_logprobs.py │ ├── test_main.py │ ├── test_max_memory.py │ ├── test_mllm.py │ └── test_sglang.py ├── llm/ │ ├── __init__.py │ ├── config/ │ │ ├── infer.json │ │ └── sft.json │ ├── data/ │ │ ├── alpaca.csv │ │ ├── alpaca.jsonl │ │ ├── alpaca2.csv │ │ ├── chatml.jsonl │ │ ├── conversations.jsonl │ │ ├── multi_modal_1.jsonl │ │ ├── multi_modal_2.jsonl │ │ ├── multi_modal_3.jsonl │ │ ├── sharegpt.jsonl │ │ ├── swift_multi.json │ │ ├── swift_multi.jsonl │ │ ├── swift_pre.csv │ │ ├── swift_pre.jsonl │ │ ├── swift_single.csv │ │ └── swift_single.jsonl │ ├── test_custom.py │ ├── test_dataset.py │ ├── test_ollama_export.py │ ├── test_run.py │ ├── test_template.py │ ├── test_utils.py │ └── test_web_ui.py ├── megatron/ │ ├── export/ │ │ └── test_export.py │ ├── test_align/ │ │ ├── test_llm.py │ │ └── test_mllm.py │ ├── test_embedding.py │ ├── test_export.py │ ├── test_gkd.py │ ├── test_grpo.py │ ├── test_kto.py │ ├── test_lora.py │ ├── test_rlhf.py │ └── test_train.py ├── model_tag.py ├── models/ │ ├── test_flash_attn.py │ ├── test_llm.py │ └── test_mllm.py ├── run.py ├── run_config.yaml ├── sample/ │ └── test_client.py ├── test_align/ │ ├── test_cls.py │ ├── test_lmdeploy_vlm.py │ ├── test_padding_side.py │ ├── test_rlhf_loss.py │ ├── test_template/ │ │ ├── test_agent.py │ │ ├── test_audio.py │ │ ├── test_gene.py │ │ ├── test_llm.py │ │ ├── test_template.py │ │ ├── test_tool.py │ │ ├── test_video.py │ │ └── test_vision.py │ └── test_vllm_vlm.py ├── test_utils.py ├── train/ │ ├── test_channel.py │ ├── test_cls.py │ ├── test_embedding.py │ ├── test_export_cached_dataset.py │ ├── test_freeze.py │ ├── test_gkd.py │ ├── test_grounding.py │ ├── test_grpo.py │ ├── test_kto.py │ ├── test_liger.py │ ├── test_multilabel.py │ ├── test_packing.py │ ├── test_ppo.py │ ├── test_pt.py │ ├── test_resume_from_checkpoint.py │ ├── test_rlhf.py │ ├── test_sample.py │ ├── test_sft.py │ ├── test_train_eval.py │ ├── test_vit_lr.py │ └── test_vllm_importance_sampling_basic.py ├── tuners/ │ ├── __init__.py │ ├── test_extra_state_dict.py │ ├── test_merged_linear.py │ ├── test_neft.py │ ├── test_peft.py │ ├── test_scetuning.py │ ├── test_swift_base.py │ ├── test_swift_device_map.py │ └── test_swift_restuning.py └── utils/ ├── __init__.py ├── test_async_rewards.py ├── test_file_utils.py ├── test_io_utils.py ├── test_rewards.py ├── test_split_str_parts_by.py └── test_torch_utils.py