gitextract_50r359j2/ ├── .gitignore ├── LICENSE ├── README.md ├── ai-compiler/ │ ├── README.md │ ├── Treebeard/ │ │ └── README.md │ ├── treelit/ │ │ ├── README.md │ │ └── xgb.md │ └── triton-lang/ │ └── README.md ├── ai-framework/ │ ├── README.md │ ├── TensorRT-Model-Optimizer.md │ ├── cuda/ │ │ └── README.md │ ├── deepspeed/ │ │ ├── 1.DeepSpeed入门.md │ │ ├── 2.安装DeepSpeed.md │ │ ├── 3.基于CIFAR-10使用DeepSpeed进行分布式训练 .md │ │ ├── DeepSpeed配置JSON文件.md │ │ ├── README.md │ │ ├── config-json/ │ │ │ ├── README.md │ │ │ └── deepspeed-nvme.md │ │ ├── deepspeed-slurm.md │ │ ├── hello_bert/ │ │ │ ├── README.md │ │ │ ├── train_bert.py │ │ │ └── train_bert_ds.py │ │ └── training/ │ │ └── pipeline_parallelism/ │ │ └── README.md │ ├── dlrover.md │ ├── huggingface-accelerate/ │ │ └── README.md │ ├── huggingface-peft/ │ │ └── README.md │ ├── huggingface-transformers/ │ │ ├── API.md │ │ ├── FSDP.md │ │ └── README.md │ ├── huggingface-trl/ │ │ └── README.md │ ├── jax/ │ │ ├── README.md │ │ └── reference.md │ ├── llama-cpp/ │ │ └── README.md │ ├── megatron-deepspeed/ │ │ └── README.md │ ├── megatron-lm/ │ │ └── README.md │ ├── mxnet/ │ │ ├── README.md │ │ ├── mnist.py │ │ ├── mxnet_cnn_mnist.py │ │ ├── mxnet_mlp_mnist.py │ │ ├── oneflow_cnn_mnist.py │ │ ├── oneflow_mlp_mnist.py │ │ └── reference.md │ ├── oneflow/ │ │ ├── README.md │ │ ├── oneflow_mlp_mnist.py │ │ └── reference.md │ ├── openai-triton/ │ │ └── README.md │ ├── paddlepaddle/ │ │ ├── README.md │ │ └── reference.md │ ├── pai-megatron-patch/ │ │ └── README.md │ ├── pai-torchacc.md │ ├── pytorch/ │ │ ├── README.md │ │ ├── install.md │ │ └── reference.md │ ├── tensorflow/ │ │ ├── README.md │ │ └── reference.md │ ├── transformer-engine/ │ │ └── mnist/ │ │ ├── README.md │ │ ├── main.py │ │ └── main_stat.py │ └── unsloth-微调.md ├── ai-infra/ │ ├── ai-cluster/ │ │ └── README.md │ ├── ai-hardware/ │ │ ├── AI芯片软件生态.md │ │ ├── CUDA.md │ │ ├── GPU-network.md │ │ ├── GPU相关环节变量.md │ │ ├── NIXL.md │ │ ├── OEM-DGX.md │ │ ├── README.md │ │ ├── TSMC-台积电.md │ │ ├── cuda镜像.md │ │ ├── gpudirect.md │ │ └── 硬件对比.md │ ├── communication.md │ ├── 存储/ │ │ ├── README.md │ │ ├── REF.md │ │ ├── nvme-ssd.md │ │ ├── 固态硬盘.md │ │ └── 存储.md │ ├── 算力/ │ │ ├── AI芯片.md │ │ ├── GPU工作原理.md │ │ ├── NVIDIA-GPU型号.md │ │ ├── 推理芯片.md │ │ └── 昇腾NPU.md │ └── 网络/ │ ├── HPC性能测试.md │ ├── IB-docker.md │ ├── IB流量监控.md │ ├── IB软件.md │ ├── InfiniBand.md │ ├── NCCL.md │ ├── README.md │ ├── REF.md │ ├── Spine-Leaf和InfiniBand网络架构区别简述.md │ ├── nccl-test-集合通讯的性能测试.md │ ├── nvbandwidth.md │ ├── roce.md │ ├── 网络硬件.md │ ├── 通信软件.md │ └── 集合通信原语.md ├── blog/ │ ├── TODO.md │ ├── ai-infra/ │ │ ├── AI 集群基础设施 InfiniBand 详解.md │ │ └── AI 集群基础设施 NVMe SSD 详解.md │ ├── distribution-parallelism/ │ │ ├── 大模型分布式训练并行技术(一)-概述.md │ │ ├── 大模型分布式训练并行技术(九)-总结.md │ │ └── 大模型分布式训练并行技术(六)-多维混合并行.md │ ├── llm-algo/ │ │ ├── moe.md │ │ └── 大白话Transformer架构.md │ ├── llm-compression/ │ │ ├── 大模型量化技术原理-ZeroQuant系列.md │ │ └── 大模型量化技术原理:QoQ量化及QServe推理服务系统.md │ ├── llm-inference/ │ │ └── 大模型推理框架概述.md │ ├── llm-localization/ │ │ ├── 大模型国产化适配1-华为昇腾AI全栈软硬件平台总结.md │ │ └── 大模型国产化适配4-基于昇腾910使用LLaMA-13B进行多机多卡训练.md │ ├── llm-peft/ │ │ ├── 大模型参数高效微调技术原理综述(一)-背景、参数高效微调简介.md │ │ └── 大模型参数高效微调技术原理综述(五)-LoRA、AdaLoRA、QLoRA.md │ └── reference/ │ └── 高性能 LLM 推理框架的设计与实现.md ├── docs/ │ ├── README.md │ ├── conda.md │ ├── flash-attention/ │ │ └── FlashAttention.md │ ├── llm-base/ │ │ ├── FLOPS.md │ │ ├── NVIDIA-Nsight-Systems性能分析.md │ │ ├── README.md │ │ ├── a800-env-install.md │ │ ├── ai-algo.md │ │ ├── autoregressive-lm-decoding-methods.md │ │ ├── dcgmi.md │ │ ├── distribution-parallelism/ │ │ │ ├── README.md │ │ │ ├── auto-parallel/ │ │ │ │ ├── Alpa.md │ │ │ │ ├── Flexflow.md │ │ │ │ ├── Galvatron.md │ │ │ │ ├── Mesh-Tensorflow.md │ │ │ │ ├── README.md │ │ │ │ ├── Unity.md │ │ │ │ ├── auto-parallel.md │ │ │ │ ├── gspmd.md │ │ │ │ ├── 分布式训练自动并行概述.md │ │ │ │ └── 飞桨面向异构场景下的自动并行设计与实践.md │ │ │ ├── data-parallelism/ │ │ │ │ └── README.md │ │ │ ├── moe-parallel/ │ │ │ │ ├── README.md │ │ │ │ ├── moe-framework.md │ │ │ │ ├── moe-parallel.md │ │ │ │ └── paddle_moe.py │ │ │ ├── multidimensional-hybrid-parallel/ │ │ │ │ └── README.md │ │ │ ├── pipeline-parallelism/ │ │ │ │ └── README.md │ │ │ ├── tensor-parallel/ │ │ │ │ ├── README.md │ │ │ │ └── tensor-parallel.md │ │ │ └── 并行技术.drawio │ │ ├── distribution-training/ │ │ │ ├── Bloom-176B训练经验.md │ │ │ ├── FP16-BF16.md │ │ │ ├── GLM-130B训练经验.md │ │ │ ├── OPT-175B训练经验.md │ │ │ ├── README.md │ │ │ └── 自动混合精度.md │ │ ├── gpu-env-var.md │ │ ├── h800-env-install.md │ │ ├── monitor.md │ │ ├── multimodal/ │ │ │ └── sora.md │ │ ├── nvidia-smi-dmon.md │ │ ├── nvidia-smi.md │ │ ├── rlhf/ │ │ │ └── README.md │ │ ├── scenes/ │ │ │ ├── README.md │ │ │ ├── cv/ │ │ │ │ ├── README.md │ │ │ │ ├── paddle/ │ │ │ │ │ └── README.md │ │ │ │ ├── pytorch/ │ │ │ │ │ └── README.md │ │ │ │ └── reference.md │ │ │ └── multi-modal/ │ │ │ ├── README.md │ │ │ └── reference.md │ │ ├── singularity命令.md │ │ ├── slurm.md │ │ ├── 分布式训练加速技术.md │ │ ├── 多机RDMA性能测试.txt │ │ └── 机器学习中常用的数据类型.md │ ├── llm-experience.md │ ├── llm-inference/ │ │ ├── DeepSpeed-Inference.md │ │ ├── KV-Cache.md │ │ ├── LLM服务框架对比.md │ │ ├── README.md │ │ ├── blog.md │ │ ├── flexflow/ │ │ │ └── 投机采样.md │ │ ├── llm推理优化技术.md │ │ ├── llm推理框架.md │ │ └── vllm.md │ ├── llm-peft/ │ │ ├── LoRA-FA.md │ │ ├── MAM_Adapter.md │ │ ├── README.md │ │ └── ReLoRA.md │ ├── llm-summarize/ │ │ ├── README.md │ │ ├── distribution_dl_roadmap.md │ │ ├── 大模型实践总结-20230930.md │ │ ├── 大模型实践总结.md │ │ ├── 文档大模型.md │ │ ├── 金融大模型.md │ │ └── 领域大模型.md │ └── transformer内存估算.md ├── faq/ │ └── FAQ.md ├── git-pull-push.sh ├── llm-algo/ │ ├── FLOPs.md │ ├── InternLM-20B.md │ ├── README.md │ ├── baichuan2/ │ │ └── baichuan.md │ ├── bert/ │ │ └── 模型架构.md │ ├── bert.md │ ├── bloom/ │ │ └── README.md │ ├── bloom.md │ ├── chatglm/ │ │ ├── README.md │ │ └── 模型架构.md │ ├── chatglm2/ │ │ ├── README.md │ │ └── 模型架构.md │ ├── chatglm3/ │ │ ├── README.md │ │ └── reference.md │ ├── chatgpt/ │ │ └── README.md │ ├── deepseek/ │ │ ├── DeepSeek-R1.md │ │ ├── DeepSeek-V2.md │ │ ├── DeepSeek-V3.md │ │ └── README.md │ ├── glm-130b/ │ │ └── README.md │ ├── glm4.md │ ├── gpt/ │ │ └── README.md │ ├── gpt2/ │ │ ├── README.md │ │ ├── hf_modeling_gpt2.py │ │ └── 模型架构.md │ ├── gpt3/ │ │ └── README.md │ ├── llama/ │ │ ├── README.md │ │ └── 模型架构.md │ ├── llama.md │ ├── mixtral/ │ │ └── README.md │ ├── mlp.md │ ├── moe/ │ │ └── README.md │ ├── qwen/ │ │ ├── README.md │ │ └── 参数说明及函数说明.md │ ├── qwen2.md │ ├── t5/ │ │ └── README.md │ ├── transformer/ │ │ ├── README.md │ │ ├── Transformer中FFN的记忆功能.md │ │ └── 模型架构.md │ ├── transformer.md │ ├── 基本概念.md │ ├── 旋转编码RoPE.md │ ├── 模型架构类图.drawio │ └── 训练范式.md ├── llm-alignment/ │ ├── DPO.md │ ├── README.md │ ├── RLHF.md │ └── 基本概念.md ├── llm-application/ │ ├── Higress.md │ ├── README.md │ ├── agent/ │ │ ├── OpenClaw.md │ │ └── OpenCode/ │ │ └── README.md │ ├── embbedding-model.md │ ├── gradio/ │ │ └── README.md │ ├── langchain/ │ │ ├── README.md │ │ ├── serve.py │ │ └── tutorials/ │ │ ├── client.py │ │ └── serve.py │ ├── one-api.md │ ├── pre-post-handle/ │ │ └── README.md │ ├── rag/ │ │ ├── README.md │ │ ├── embedding.md │ │ ├── 存在的一些问题.md │ │ └── 方案.md │ ├── vector-db/ │ │ ├── README.md │ │ └── reference.md │ └── 应用场景.md ├── llm-compression/ │ ├── PaddleSlim/ │ │ ├── quantization.md │ │ └── README.md │ ├── README.md │ ├── distillation/ │ │ ├── GKD.md │ │ ├── MINILLM.md │ │ ├── README.md │ │ ├── SCOTT.md │ │ └── 大模型蒸馏概述.md │ ├── gptqmodel/ │ │ └── README.md │ ├── llm-compressor/ │ │ ├── README.md │ │ ├── source-code.md │ │ ├── 剪枝.md │ │ └── 量化方案.md │ ├── quantization/ │ │ ├── FP6-LLM.md │ │ ├── GPTQ.md │ │ ├── LLM-int8.md │ │ ├── PEQA.md │ │ ├── QQQ-W4A8.md │ │ ├── README.md │ │ ├── SmoothQuant.md │ │ ├── SpinQuant.md │ │ ├── ZeroQuant(4+2).md │ │ ├── ZeroQuant.md │ │ ├── fp4.md │ │ ├── fp6.md │ │ ├── fp8.md │ │ ├── kv-cache-quant.md │ │ ├── llm-qat/ │ │ │ ├── LLM-QAT.md │ │ │ ├── README.md │ │ │ ├── cfd70ff/ │ │ │ │ ├── README.md │ │ │ │ ├── generate_data.py │ │ │ │ ├── inference.py │ │ │ │ ├── merge_gen_data.py │ │ │ │ ├── pip.conf │ │ │ │ ├── run_train.sh │ │ │ │ ├── train.py │ │ │ │ └── utils.py │ │ │ ├── f4d873a/ │ │ │ │ ├── datautils.py │ │ │ │ ├── run_train.sh │ │ │ │ └── train.py │ │ │ └── log.md │ │ ├── moe模型量化.md │ │ ├── tools.md │ │ ├── 可视化/ │ │ │ ├── README.md │ │ │ ├── qwen_activate_visual.ipynb │ │ │ └── qwen_visual.ipynb │ │ ├── 大模型量化概述.md │ │ └── 量化基础.md │ ├── sparsity/ │ │ └── README.md │ ├── tools.md │ ├── 大模型压缩综述.md │ └── 经验.md ├── llm-data-engineering/ │ ├── README.md │ ├── dataset/ │ │ ├── README.md │ │ ├── baichuan2.md │ │ ├── chinese-corpus-all.md │ │ └── english-corpus-all.md │ ├── reference.md │ └── sft-dataset/ │ ├── baichuan2_test.py │ ├── evol-instruct.md │ ├── firefly-template.py │ ├── jinja-demo.py │ ├── jinja-llm-baichuan.py │ ├── jinja-llm-baichuan2.py │ ├── jinja-llm-bloom.py │ ├── jinja-llm-chatglm3.py │ ├── jinja-llm.py │ ├── jinja.md │ ├── 数据格式设计.md │ └── 数据集格式.md ├── llm-eval/ │ ├── EvalScope.md │ ├── README.md │ ├── eval-data/ │ │ ├── longtext_L115433-question.txt │ │ ├── longtext_L115433.txt │ │ ├── longtext_L32503_answer.txt │ │ ├── longtext_L32503_question.txt │ │ ├── longtext_L64031.txt │ │ └── longtext_L64031_question.txt │ ├── llm-performance/ │ │ ├── AI芯片性能.md │ │ ├── README.md │ │ ├── hardware-performance/ │ │ │ ├── gpu-monitor-ui.py │ │ │ └── pynvml-stat-memory.py │ │ ├── llmperf.md │ │ ├── mindie/ │ │ │ ├── lantency/ │ │ │ │ ├── README.md │ │ │ │ ├── perfermance-stat.py │ │ │ │ ├── performance-stream-baichuan2.py │ │ │ │ ├── performance-stream-chatglm3.py │ │ │ │ ├── performance-stream-qwen1.5.py │ │ │ │ ├── performance-stream-qwen1.py │ │ │ │ ├── performance-stream.py │ │ │ │ └── stat_input_token.py │ │ │ └── locust-lantency-throughput/ │ │ │ ├── README.md │ │ │ ├── hello.py │ │ │ ├── llm-910b4-baichuan2-7b-2tp.py │ │ │ ├── llm-910b4-chatglm3-6b-2tp.py │ │ │ ├── llm-910b4-qwen-72b-8tp.py │ │ │ ├── llm-910b4-qwen1.5-4tp.py │ │ │ ├── qwen1.5-72b-8tp.html │ │ │ └── 示例.py │ │ ├── perfetto.md │ │ ├── stat_gpu_memory.py │ │ ├── tgi-benchmark.md │ │ ├── vllm/ │ │ │ ├── README.md │ │ │ ├── vllm-locust-qwen1.5-7b-long.py │ │ │ └── vllm-performance-stream-qwen1.5-long.py │ │ ├── vllm-benchmark.md │ │ ├── wrk-性能测试工具.md │ │ ├── 大模型场景下训练和推理性能指标名词解释.md │ │ ├── 推理性能测试.md │ │ └── 训练性能测试.md │ ├── llm-precision/ │ │ ├── C-Eval.md │ │ ├── README.md │ │ └── 模型质量评估.md │ ├── opencompass.md │ └── 大模型测评集.md ├── llm-inference/ │ ├── DeepSpeed-Inference.md │ ├── Flash-Decoding.md │ ├── FlashInfer.md │ ├── FlexFlow-Serve.md │ ├── GuidedGeneration.md │ ├── KV-Cache优化.md │ ├── Mooncake.md │ ├── NanoFlow.md │ ├── PD分离.md │ ├── README.md │ ├── RTP-LLM.md │ ├── ascend/ │ │ └── mindformers/ │ │ ├── README.md │ │ ├── baichuan2/ │ │ │ ├── README.md │ │ │ ├── baichuan-inference.py │ │ │ └── baichuan-stat.py │ │ ├── chatglm3/ │ │ │ ├── README.md │ │ │ ├── chatglm-gen.py │ │ │ ├── chatglm-inference.py │ │ │ └── chatglm-stat.py │ │ ├── mindsporelite-inference.py │ │ ├── mindsporelite-stat.py │ │ └── text_generator_infer.py │ ├── chatgpt.md │ ├── deepspeed-mii/ │ │ └── README.md │ ├── faster-transformer/ │ │ ├── README.md │ │ ├── bloom/ │ │ │ ├── README.md │ │ │ └── firefly_lambada_1w_stat_token.py │ │ ├── gpt/ │ │ │ └── README.md │ │ ├── llama/ │ │ │ └── README.md │ │ └── megatron-gpt2/ │ │ ├── gpt_summarization.py │ │ ├── gpt_summarization_stat.py │ │ └── megatron-gpt2-fp8.md │ ├── flexflow-serve/ │ │ └── benchmark-batch1.py │ ├── huggingface-tgi/ │ │ └── README.md │ ├── huggingface-transformer/ │ │ └── README.md │ ├── lightllm/ │ │ └── README.md │ ├── lmdeploy/ │ │ ├── README.md │ │ ├── 功能.md │ │ └── 服务启动参数.md │ ├── native-model/ │ │ └── chatglm3-6b/ │ │ └── cli_demo.py │ ├── offload.md │ ├── openai.md │ ├── sglang/ │ │ ├── README.md │ │ ├── source-code.md │ │ ├── 服务器启动参数.md │ │ └── 项目代码结构.md │ ├── tensorrt/ │ │ ├── README.md │ │ └── install.md │ ├── tensorrt-llm/ │ │ ├── FP8.md │ │ ├── Memory Usage of TensorRT-LLM.md │ │ ├── README.md │ │ ├── TRT-LLM引擎构建参数.md │ │ ├── Triton服务启动参数.md │ │ └── 安装.md │ ├── triton/ │ │ ├── REAEME.md │ │ ├── onnx/ │ │ │ └── README.md │ │ └── resnet50/ │ │ ├── client.py │ │ ├── config.pbtxt │ │ ├── labels.txt │ │ └── resnet50_convert_torchscript.py │ ├── vllm/ │ │ ├── FAQ.md │ │ ├── FP8.md │ │ ├── README.md │ │ ├── REF.md │ │ ├── api_client.py │ │ ├── cmd.md │ │ ├── vllm.md │ │ ├── 服务启动参数.md │ │ ├── 源码.md │ │ ├── 请求处理流程.md │ │ └── 长文本推理.md │ ├── web/ │ │ ├── fastapi/ │ │ │ ├── README.md │ │ │ └── llm-qwen-mindspore-lite.py │ │ ├── flask/ │ │ │ ├── README.md │ │ │ └── llm-qwen-mindspore-lite.py │ │ └── sanic/ │ │ └── README.md │ ├── xinference/ │ │ └── README.md │ ├── 分离式推理架构.md │ ├── 大模型推理张量并行.md │ └── 解码策略.md ├── llm-interview/ │ ├── README.md │ ├── base.md │ ├── comprehensive.md │ ├── llm-algo.md │ ├── llm-app.md │ ├── llm-compress.md │ ├── llm-eval.md │ ├── llm-ft.md │ ├── llm-inference.md │ ├── llm-rlhf.md │ └── llm-train.md ├── llm-localization/ │ ├── README.md │ ├── ascend/ │ │ ├── FAQ.md │ │ ├── README.md │ │ ├── ascend-c/ │ │ │ └── README.md │ │ ├── ascend-infra/ │ │ │ ├── HCCL.md │ │ │ ├── MacOS环境.md │ │ │ ├── ascend-dmi.md │ │ │ ├── ascend-docker-runtime.md │ │ │ ├── ascend-docker.md │ │ │ ├── ascend-llm下载.md │ │ │ ├── ascend-npu-smi.md │ │ │ ├── docker环境升级cann.md │ │ │ ├── network.md │ │ │ ├── npu监控.md │ │ │ ├── 操作系统.md │ │ │ ├── 昇腾卡-soc版本.md │ │ │ ├── 昇腾卡注意事项.md │ │ │ ├── 昇腾镜像.md │ │ │ ├── 服务器配置.md │ │ │ ├── 环境安装.md │ │ │ └── 达芬奇架构.md │ │ ├── ascend910-env-install.md │ │ ├── fabric-insight/ │ │ │ └── README.md │ │ ├── firefly-ascend.md │ │ ├── mindformers/ │ │ │ ├── README.md │ │ │ ├── baichuan2/ │ │ │ │ ├── baichuan2训练.md │ │ │ │ ├── run_baichuan2_7b.yaml │ │ │ │ ├── run_baichuan2_7b_910b.yaml │ │ │ │ └── run_baichuan2_7b_lora_910b.yaml │ │ │ ├── chatglm/ │ │ │ │ ├── README.md │ │ │ │ ├── chat_glm.py │ │ │ │ ├── glm_6b.yaml │ │ │ │ ├── glm_6b_chat.yaml │ │ │ │ ├── merge_ckpt.py │ │ │ │ ├── merge_ckpt_lora.py │ │ │ │ ├── pt2ms.py │ │ │ │ ├── run_glm_6b_finetune.yaml │ │ │ │ ├── run_glm_6b_infer.yaml │ │ │ │ ├── run_glm_6b_lora.yaml │ │ │ │ └── run_glm_6b_lora_infer.yaml │ │ │ ├── env.md │ │ │ ├── llama/ │ │ │ │ └── README.md │ │ │ ├── qwen/ │ │ │ │ ├── qwen1训练.md │ │ │ │ ├── run_qwen_7b.yaml │ │ │ │ └── run_qwen_7b_910b.yaml │ │ │ ├── qwen1.5/ │ │ │ │ ├── qwen1.5训练.md │ │ │ │ ├── run_qwen1_5_7b_finetune.yaml │ │ │ │ └── run_qwen1_5_7b_infer.yaml │ │ │ ├── trick.md │ │ │ └── 权重格式转换.md │ │ ├── mindie/ │ │ │ ├── 2.0.RC2/ │ │ │ │ └── qwen.md │ │ │ ├── README.md │ │ │ ├── config/ │ │ │ │ ├── chatglm3-6b.json │ │ │ │ ├── qwen-72b.json │ │ │ │ └── run.sh │ │ │ ├── config-1.0.RC1.json │ │ │ ├── docker/ │ │ │ │ ├── README.md │ │ │ │ ├── TEST.md │ │ │ │ ├── baichuan2-13b.json │ │ │ │ ├── baichuan2-7b.json │ │ │ │ ├── deploy.sh │ │ │ │ ├── install_and_enable_cann.sh │ │ │ │ ├── llm-server.sh │ │ │ │ ├── mindie-1.0.Dockerfile │ │ │ │ ├── mindie-all-1.0.Dockerfile │ │ │ │ ├── mindie-env-1.0.Dockerfile │ │ │ │ ├── qwen-72b.json │ │ │ │ ├── qwen1.5-14b.json │ │ │ │ ├── qwen1.5-72b.json │ │ │ │ └── qwen1.5-7b.json │ │ │ ├── llm-server.sh │ │ │ ├── mindid-1.0-offical.md │ │ │ ├── mindid-performance.md │ │ │ ├── mindie-1.0.Dockerfile │ │ │ ├── mindie-1.0.RC2.md │ │ │ ├── mindie-1.0.md │ │ │ ├── mindie-1.0.rc2-config.json │ │ │ ├── mindie-1.0.rc2-llm-server.sh │ │ │ ├── mindie-2.0.rc2.md │ │ │ ├── mindie-20240411.md │ │ │ ├── mindie-api.md │ │ │ ├── model-test.md │ │ │ ├── script/ │ │ │ │ ├── model-test.py │ │ │ │ └── run.sh │ │ │ ├── 性能调优.md │ │ │ └── 日志分析.txt │ │ ├── mindspore/ │ │ │ ├── MindSpore-note.md │ │ │ ├── README.md │ │ │ ├── bert.md │ │ │ ├── reference.md │ │ │ └── 镜像.md │ │ ├── modellink/ │ │ │ ├── README.md │ │ │ ├── dataset.md │ │ │ ├── llm.md │ │ │ ├── qwen.md │ │ │ ├── 环境-20240521.md │ │ │ └── 环境安装.md │ │ ├── msmodelslim/ │ │ │ ├── README.md │ │ │ └── llm_quant/ │ │ │ ├── baichuan2-w8a8.py │ │ │ ├── calib_set.json │ │ │ └── qwen1.5-72b-w8a16.py │ │ ├── openmind/ │ │ │ └── README.md │ │ ├── peft/ │ │ │ ├── README.md │ │ │ └── finetune-lora.py │ │ ├── pytorch/ │ │ │ ├── README.md │ │ │ └── llm-lora.py │ │ ├── standford-alpaca/ │ │ │ ├── README.md │ │ │ ├── ds_config_zero2.json │ │ │ ├── ds_config_zero3.json │ │ │ ├── requirements.txt │ │ │ ├── train.py │ │ │ └── utils.py │ │ ├── transformers/ │ │ │ └── README.md │ │ ├── vllm-ascend/ │ │ │ └── README.md │ │ ├── 优质学习资料.md │ │ ├── 昇腾LLM支持概览.md │ │ └── 昇腾卡注意事项.md │ ├── modelscope/ │ │ └── README.md │ ├── paddle/ │ │ └── PaddleNLP.md │ └── tianshuzhixin/ │ ├── README.md │ └── ixsmi.md ├── llm-maas/ │ ├── OpenAI-ChatGPT.md │ └── README.md ├── llm-optimizer/ │ ├── FlashAttention.md │ ├── README.md │ ├── SplitFuse.md │ ├── kv-cache.md │ ├── xformers.md │ └── 计算通信重叠.md ├── llm-pipeline/ │ └── REAEMD.md ├── llm-tools/ │ ├── Pytorch-Profiler.md │ ├── README.md │ ├── base-profiler.py │ ├── nsight/ │ │ └── README.md │ ├── nsight.md │ ├── nvtx.md │ ├── profiler-recipe.py │ ├── tensorboard-profiler.py │ └── 可视化.md ├── llm-train/ │ ├── README.md │ ├── alpa/ │ │ └── train/ │ │ ├── pipeshard_parallelism.ipynb │ │ └── pipeshard_parallelism.py │ ├── alpaca/ │ │ ├── README.md │ │ ├── ds_config.json │ │ ├── ds_config_zero2.json │ │ ├── ds_config_zero2_ddp.json │ │ ├── inference.py │ │ ├── train.py │ │ └── train_ddp.py │ ├── alpaca-lora/ │ │ ├── README.md │ │ ├── export_hf_checkpoint.py │ │ ├── export_state_dict_checkpoint.py │ │ ├── finetune.py │ │ ├── finetune_metrics_epoch.py │ │ ├── generate.py │ │ └── inference.py │ ├── chatglm/ │ │ ├── README.md │ │ ├── deepspeed.json │ │ ├── ds_train_finetune.sh │ │ ├── evaluate.sh │ │ ├── evaluate_finetune.sh │ │ ├── inference.py │ │ ├── main.py │ │ ├── train.sh │ │ └── train_ptuningv2_dp.sh │ ├── chatglm-lora/ │ │ ├── README.md │ │ ├── finetune.py │ │ ├── finetune_ddp.py │ │ └── inference.py │ ├── chinese-llama-alpaca/ │ │ ├── README.md │ │ ├── inference_hf.py │ │ ├── merge_llama_with_chinese_lora.py │ │ ├── merge_tokenizers.py │ │ ├── run_clm_pt_with_peft.py │ │ ├── run_clm_sft_with_peft.py │ │ ├── run_pt.sh │ │ └── run_sft.sh │ ├── deepspeedchat/ │ │ ├── README.md │ │ ├── llama/ │ │ │ └── README.md │ │ └── training/ │ │ ├── step1_supervised_finetuning/ │ │ │ └── training_scripts/ │ │ │ └── single_node/ │ │ │ └── run_13b.sh │ │ ├── step2_reward_model_finetuning/ │ │ │ └── training_scripts/ │ │ │ └── single_node/ │ │ │ └── run_350m.sh │ │ ├── step3_rlhf_finetuning/ │ │ │ └── training_scripts/ │ │ │ └── single_node/ │ │ │ └── run_13b.sh │ │ └── utils/ │ │ └── data/ │ │ └── raw_datasets.py │ ├── firefly/ │ │ ├── README.md │ │ ├── bootstrap-s3.sh │ │ ├── bootstrap.sh │ │ ├── dockerfile.md │ │ └── test_bash_getopts.sh │ ├── fp8.md │ ├── galore/ │ │ └── torchrun_main.py │ ├── megatron/ │ │ ├── README.md │ │ ├── codegeex/ │ │ │ └── README.md │ │ ├── gpt2/ │ │ │ ├── README.md │ │ │ ├── data/ │ │ │ │ ├── cMinhash.cpp │ │ │ │ ├── download.py │ │ │ │ ├── file_utils.py │ │ │ │ └── merge_data.py │ │ │ ├── gpt-data-preprocess.md │ │ │ ├── merge_ck_and_inference/ │ │ │ │ ├── README.md │ │ │ │ ├── checkpoint_loader_megatron.py │ │ │ │ ├── checkpoint_saver_megatron.py │ │ │ │ ├── checkpoint_util.py │ │ │ │ ├── eval_gpt2_lambada.sh │ │ │ │ ├── run_text_generation_server.py │ │ │ │ ├── run_text_generation_server_345M.sh │ │ │ │ ├── run_text_generation_server_345M_2tp_2dp.sh │ │ │ │ ├── run_text_generation_server_345M_4_tensor_parallel.sh │ │ │ │ └── text_generation_cli.py │ │ │ ├── model_merge_eval_inference.md │ │ │ ├── model_train.md │ │ │ ├── requirements.txt │ │ │ └── train/ │ │ │ ├── pretrain_gpt.sh │ │ │ ├── pretrain_gpt_distributed.sh │ │ │ ├── pretrain_gpt_distributed_with_4pp.sh │ │ │ ├── pretrain_gpt_distributed_with_4tp.sh │ │ │ └── pretrain_gpt_distributed_with_mp.sh │ │ ├── megatron.drawio │ │ ├── pretrain.xmind │ │ ├── project.md │ │ └── source-code.md │ ├── megatron-deepspeed/ │ │ ├── README.md │ │ ├── bigscience/ │ │ │ └── bloom-note.md │ │ ├── bloom-megatron-deepspeed.md │ │ ├── microsoft/ │ │ │ ├── H800多机多卡训练坑点.md │ │ │ ├── README.md │ │ │ ├── llama-note.md │ │ │ ├── pip.conf │ │ │ ├── pretrain_llama2_13b_distributed_fp16.sh │ │ │ ├── pretrain_llama2_distributed.sh │ │ │ ├── pretrain_llama_13b_distributed_fp16.sh │ │ │ ├── pretrain_llama_7b_distributed_fp16.sh │ │ │ ├── pretrain_llama_distributed_fp16.sh │ │ │ ├── slurm/ │ │ │ │ ├── README.md │ │ │ │ ├── llama-multinode-ib.sh │ │ │ │ ├── megatron-deepspeed-multinode-ib-part2-30b-fp16.slurm │ │ │ │ └── megatron-deepspeed-multinode-ib-part2-65b-fp16.slurm │ │ │ ├── 代码.md │ │ │ ├── 环境准备.md │ │ │ ├── 训练日志分析.md │ │ │ └── 项目结构-202312228.md │ │ └── source-code.md │ ├── paddle/ │ │ ├── README.md │ │ └── paddlenlp/ │ │ ├── README.md │ │ ├── baichuan2/ │ │ │ └── README.md │ │ └── bloom/ │ │ ├── README.md │ │ └── sft_argument.json │ ├── peft/ │ │ ├── LoRA-QLoRA.md │ │ ├── PEFT-API.md │ │ ├── Prefix-Tuning.md │ │ ├── Prompt-Tuning.md │ │ ├── README.md │ │ ├── clm/ │ │ │ ├── accelerate_ds_zero3_cpu_offload_config.yaml │ │ │ ├── peft_ia3_clm.ipynb │ │ │ ├── peft_lora_clm.ipynb │ │ │ ├── peft_lora_clm_accelerate_ds_zero3_offload.py │ │ │ ├── peft_p_tuning_clm.ipynb │ │ │ ├── peft_p_tuning_lstm_clm.ipynb │ │ │ ├── peft_p_tuning_v2_clm.ipynb │ │ │ ├── peft_prefix_tuning_clm.ipynb │ │ │ └── peft_prompt_tuning_clm.ipynb │ │ ├── conditional_generation/ │ │ │ └── README.md │ │ └── multimodal/ │ │ ├── blip2_lora_inference.py │ │ ├── blip2_lora_int8_fine_tune.py │ │ └── finetune_bloom_bnb_peft.ipynb │ ├── pytorch/ │ │ ├── Pytorch源码解读.md │ │ ├── README.md │ │ ├── api.md │ │ ├── distribution/ │ │ │ ├── README.md │ │ │ ├── api.md │ │ │ ├── data-parallel/ │ │ │ │ ├── README.md │ │ │ │ ├── ddp_launch.py │ │ │ │ ├── ddp_main.py │ │ │ │ ├── elastic_ddp.py │ │ │ │ ├── minGPT-ddp/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── multinode.sh │ │ │ │ │ ├── sbatch_run.sh │ │ │ │ │ ├── sbatch_run_sig.sh │ │ │ │ │ └── sbatch_run_sig_opt.sh │ │ │ │ ├── sbatch_run.sh │ │ │ │ └── 使用DDP训练真实世界的模型.md │ │ │ ├── pipeline-parallel/ │ │ │ │ ├── 1-流水线.md │ │ │ │ ├── 2-使用torchtext训练transformer模型.md │ │ │ │ ├── 3-使用流水线并行训练Transformer模型.md │ │ │ │ ├── 4-使用DDP与流水线并行训练Transformer模型.md │ │ │ │ ├── README.md │ │ │ │ ├── ddp_pipeline.py │ │ │ │ ├── pipeline_tutorial.ipynb │ │ │ │ └── transformer_tutorial.ipynb │ │ │ ├── rpc/ │ │ │ │ └── README.md │ │ │ ├── sequence-parallelism/ │ │ │ │ └── README.md │ │ │ ├── tensor-parallel/ │ │ │ │ ├── 2d_parallel_example.py │ │ │ │ ├── README.md │ │ │ │ ├── sequence_parallel_example.py │ │ │ │ ├── tensor_parallel_example.py │ │ │ │ └── utils.py │ │ │ ├── torchrun.md │ │ │ ├── 分布式通信包.md │ │ │ ├── 多机多卡.md │ │ │ └── 多机训练.md │ │ ├── resource.md │ │ └── torchrun.md │ ├── qlora/ │ │ ├── README.md │ │ ├── accuracy.py │ │ ├── export_hf_checkpoint.py │ │ ├── inference.py │ │ ├── inference_merge.py │ │ ├── inference_qlora.py │ │ └── qlora.py │ ├── slurm/ │ │ ├── README.md │ │ ├── deepspeed/ │ │ │ ├── pp-multinode-machine.slurm │ │ │ ├── pp-multinode-singularity.slurm │ │ │ ├── pp-mutinode-singularity-pmix.slurm │ │ │ ├── pp-standalone-singularity-v2.slurm │ │ │ └── pp-standalone-singularity.slurm │ │ ├── megatron-deepspeed/ │ │ │ └── megatron-deepspeed-multinode-ib-part2-65b-fp16.slurm │ │ └── pytorch/ │ │ ├── alpaca-docker.slurm │ │ ├── alpaca-machine.slurm │ │ ├── alpaca-singularity.slurm │ │ ├── mingpt-singularity-multinode-2.slurm │ │ └── mingpt-singularity-multinode.slurm │ └── vicuna/ │ └── README.md ├── llmops/ │ ├── FAQ.md │ ├── README.md │ ├── kubernetes.md │ ├── tq-llm/ │ │ └── train/ │ │ ├── FAQ.md │ │ ├── README.md │ │ ├── bootstrap-llm-zero3-offload.sh │ │ ├── bootstrap-llm.sh │ │ ├── bootstrap-llm2.sh │ │ ├── zero2-offload.json │ │ └── zero3-offload.json │ ├── 使用docker进行多机多卡训练.md │ ├── 千帆大模型平台.md │ └── 模型推理平台方案.md ├── mkdir-dir-file.sh ├── paper/ │ ├── A Survey on Efficient Training of Transformers.md │ ├── LESS-选择有影响力的数据进行目标指令精调.md │ ├── LLM增强LLMS.md │ ├── PagedAttention.md │ ├── README.md │ ├── data/ │ │ ├── LESS 实践:仅用少量的数据完成目标指令微调.md │ │ ├── LESS-选择有影响力的数据进行目标指令精调.md │ │ └── LESS.md │ ├── inference/ │ │ ├── llm-in-a-flash.md │ │ ├── orca.md │ │ └── 迈向高效的生成式大语言模型服务综述-从算法到系统.md │ ├── llm对齐综述.md │ ├── moe/ │ │ └── README.md │ ├── parameter-pruning/ │ │ ├── LLM-Pruner.md │ │ ├── SparseGPT.md │ │ ├── Wanda.md │ │ └── 公式.md │ └── training/ │ ├── A Survey on Efficient Training of Transformers.md │ ├── GaLore.md │ └── Reducing Activation Recomputation in Large Transformer Models.md └── template/ └── server.md