gitextract_50r359j2/

├── .gitignore
├── LICENSE
├── README.md
├── ai-compiler/
│   ├── README.md
│   ├── Treebeard/
│   │   └── README.md
│   ├── treelit/
│   │   ├── README.md
│   │   └── xgb.md
│   └── triton-lang/
│       └── README.md
├── ai-framework/
│   ├── README.md
│   ├── TensorRT-Model-Optimizer.md
│   ├── cuda/
│   │   └── README.md
│   ├── deepspeed/
│   │   ├── 1.DeepSpeed入门.md
│   │   ├── 2.安装DeepSpeed.md
│   │   ├── 3.基于CIFAR-10使用DeepSpeed进行分布式训练 .md
│   │   ├── DeepSpeed配置JSON文件.md
│   │   ├── README.md
│   │   ├── config-json/
│   │   │   ├── README.md
│   │   │   └── deepspeed-nvme.md
│   │   ├── deepspeed-slurm.md
│   │   ├── hello_bert/
│   │   │   ├── README.md
│   │   │   ├── train_bert.py
│   │   │   └── train_bert_ds.py
│   │   └── training/
│   │       └── pipeline_parallelism/
│   │           └── README.md
│   ├── dlrover.md
│   ├── huggingface-accelerate/
│   │   └── README.md
│   ├── huggingface-peft/
│   │   └── README.md
│   ├── huggingface-transformers/
│   │   ├── API.md
│   │   ├── FSDP.md
│   │   └── README.md
│   ├── huggingface-trl/
│   │   └── README.md
│   ├── jax/
│   │   ├── README.md
│   │   └── reference.md
│   ├── llama-cpp/
│   │   └── README.md
│   ├── megatron-deepspeed/
│   │   └── README.md
│   ├── megatron-lm/
│   │   └── README.md
│   ├── mxnet/
│   │   ├── README.md
│   │   ├── mnist.py
│   │   ├── mxnet_cnn_mnist.py
│   │   ├── mxnet_mlp_mnist.py
│   │   ├── oneflow_cnn_mnist.py
│   │   ├── oneflow_mlp_mnist.py
│   │   └── reference.md
│   ├── oneflow/
│   │   ├── README.md
│   │   ├── oneflow_mlp_mnist.py
│   │   └── reference.md
│   ├── openai-triton/
│   │   └── README.md
│   ├── paddlepaddle/
│   │   ├── README.md
│   │   └── reference.md
│   ├── pai-megatron-patch/
│   │   └── README.md
│   ├── pai-torchacc.md
│   ├── pytorch/
│   │   ├── README.md
│   │   ├── install.md
│   │   └── reference.md
│   ├── tensorflow/
│   │   ├── README.md
│   │   └── reference.md
│   ├── transformer-engine/
│   │   └── mnist/
│   │       ├── README.md
│   │       ├── main.py
│   │       └── main_stat.py
│   └── unsloth-微调.md
├── ai-infra/
│   ├── ai-cluster/
│   │   └── README.md
│   ├── ai-hardware/
│   │   ├── AI芯片软件生态.md
│   │   ├── CUDA.md
│   │   ├── GPU-network.md
│   │   ├── GPU相关环节变量.md
│   │   ├── NIXL.md
│   │   ├── OEM-DGX.md
│   │   ├── README.md
│   │   ├── TSMC-台积电.md
│   │   ├── cuda镜像.md
│   │   ├── gpudirect.md
│   │   └── 硬件对比.md
│   ├── communication.md
│   ├── 存储/
│   │   ├── README.md
│   │   ├── REF.md
│   │   ├── nvme-ssd.md
│   │   ├── 固态硬盘.md
│   │   └── 存储.md
│   ├── 算力/
│   │   ├── AI芯片.md
│   │   ├── GPU工作原理.md
│   │   ├── NVIDIA-GPU型号.md
│   │   ├── 推理芯片.md
│   │   └── 昇腾NPU.md
│   └── 网络/
│       ├── HPC性能测试.md
│       ├── IB-docker.md
│       ├── IB流量监控.md
│       ├── IB软件.md
│       ├── InfiniBand.md
│       ├── NCCL.md
│       ├── README.md
│       ├── REF.md
│       ├── Spine-Leaf和InfiniBand网络架构区别简述.md
│       ├── nccl-test-集合通讯的性能测试.md
│       ├── nvbandwidth.md
│       ├── roce.md
│       ├── 网络硬件.md
│       ├── 通信软件.md
│       └── 集合通信原语.md
├── blog/
│   ├── TODO.md
│   ├── ai-infra/
│   │   ├── AI 集群基础设施 InfiniBand 详解.md
│   │   └── AI 集群基础设施 NVMe SSD 详解.md
│   ├── distribution-parallelism/
│   │   ├── 大模型分布式训练并行技术（一）-概述.md
│   │   ├── 大模型分布式训练并行技术（九）-总结.md
│   │   └── 大模型分布式训练并行技术（六）-多维混合并行.md
│   ├── llm-algo/
│   │   ├── moe.md
│   │   └── 大白话Transformer架构.md
│   ├── llm-compression/
│   │   ├── 大模型量化技术原理-ZeroQuant系列.md
│   │   └── 大模型量化技术原理：QoQ量化及QServe推理服务系统.md
│   ├── llm-inference/
│   │   └── 大模型推理框架概述.md
│   ├── llm-localization/
│   │   ├── 大模型国产化适配1-华为昇腾AI全栈软硬件平台总结.md
│   │   └── 大模型国产化适配4-基于昇腾910使用LLaMA-13B进行多机多卡训练.md
│   ├── llm-peft/
│   │   ├── 大模型参数高效微调技术原理综述（一）-背景、参数高效微调简介.md
│   │   └── 大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA.md
│   └── reference/
│       └── 高性能 LLM 推理框架的设计与实现.md
├── docs/
│   ├── README.md
│   ├── conda.md
│   ├── flash-attention/
│   │   └── FlashAttention.md
│   ├── llm-base/
│   │   ├── FLOPS.md
│   │   ├── NVIDIA-Nsight-Systems性能分析.md
│   │   ├── README.md
│   │   ├── a800-env-install.md
│   │   ├── ai-algo.md
│   │   ├── autoregressive-lm-decoding-methods.md
│   │   ├── dcgmi.md
│   │   ├── distribution-parallelism/
│   │   │   ├── README.md
│   │   │   ├── auto-parallel/
│   │   │   │   ├── Alpa.md
│   │   │   │   ├── Flexflow.md
│   │   │   │   ├── Galvatron.md
│   │   │   │   ├── Mesh-Tensorflow.md
│   │   │   │   ├── README.md
│   │   │   │   ├── Unity.md
│   │   │   │   ├── auto-parallel.md
│   │   │   │   ├── gspmd.md
│   │   │   │   ├── 分布式训练自动并行概述.md
│   │   │   │   └── 飞桨面向异构场景下的自动并行设计与实践.md
│   │   │   ├── data-parallelism/
│   │   │   │   └── README.md
│   │   │   ├── moe-parallel/
│   │   │   │   ├── README.md
│   │   │   │   ├── moe-framework.md
│   │   │   │   ├── moe-parallel.md
│   │   │   │   └── paddle_moe.py
│   │   │   ├── multidimensional-hybrid-parallel/
│   │   │   │   └── README.md
│   │   │   ├── pipeline-parallelism/
│   │   │   │   └── README.md
│   │   │   ├── tensor-parallel/
│   │   │   │   ├── README.md
│   │   │   │   └── tensor-parallel.md
│   │   │   └── 并行技术.drawio
│   │   ├── distribution-training/
│   │   │   ├── Bloom-176B训练经验.md
│   │   │   ├── FP16-BF16.md
│   │   │   ├── GLM-130B训练经验.md
│   │   │   ├── OPT-175B训练经验.md
│   │   │   ├── README.md
│   │   │   └── 自动混合精度.md
│   │   ├── gpu-env-var.md
│   │   ├── h800-env-install.md
│   │   ├── monitor.md
│   │   ├── multimodal/
│   │   │   └── sora.md
│   │   ├── nvidia-smi-dmon.md
│   │   ├── nvidia-smi.md
│   │   ├── rlhf/
│   │   │   └── README.md
│   │   ├── scenes/
│   │   │   ├── README.md
│   │   │   ├── cv/
│   │   │   │   ├── README.md
│   │   │   │   ├── paddle/
│   │   │   │   │   └── README.md
│   │   │   │   ├── pytorch/
│   │   │   │   │   └── README.md
│   │   │   │   └── reference.md
│   │   │   └── multi-modal/
│   │   │       ├── README.md
│   │   │       └── reference.md
│   │   ├── singularity命令.md
│   │   ├── slurm.md
│   │   ├── 分布式训练加速技术.md
│   │   ├── 多机RDMA性能测试.txt
│   │   └── 机器学习中常用的数据类型.md
│   ├── llm-experience.md
│   ├── llm-inference/
│   │   ├── DeepSpeed-Inference.md
│   │   ├── KV-Cache.md
│   │   ├── LLM服务框架对比.md
│   │   ├── README.md
│   │   ├── blog.md
│   │   ├── flexflow/
│   │   │   └── 投机采样.md
│   │   ├── llm推理优化技术.md
│   │   ├── llm推理框架.md
│   │   └── vllm.md
│   ├── llm-peft/
│   │   ├── LoRA-FA.md
│   │   ├── MAM_Adapter.md
│   │   ├── README.md
│   │   └── ReLoRA.md
│   ├── llm-summarize/
│   │   ├── README.md
│   │   ├── distribution_dl_roadmap.md
│   │   ├── 大模型实践总结-20230930.md
│   │   ├── 大模型实践总结.md
│   │   ├── 文档大模型.md
│   │   ├── 金融大模型.md
│   │   └── 领域大模型.md
│   └── transformer内存估算.md
├── faq/
│   └── FAQ.md
├── git-pull-push.sh
├── llm-algo/
│   ├── FLOPs.md
│   ├── InternLM-20B.md
│   ├── README.md
│   ├── baichuan2/
│   │   └── baichuan.md
│   ├── bert/
│   │   └── 模型架构.md
│   ├── bert.md
│   ├── bloom/
│   │   └── README.md
│   ├── bloom.md
│   ├── chatglm/
│   │   ├── README.md
│   │   └── 模型架构.md
│   ├── chatglm2/
│   │   ├── README.md
│   │   └── 模型架构.md
│   ├── chatglm3/
│   │   ├── README.md
│   │   └── reference.md
│   ├── chatgpt/
│   │   └── README.md
│   ├── deepseek/
│   │   ├── DeepSeek-R1.md
│   │   ├── DeepSeek-V2.md
│   │   ├── DeepSeek-V3.md
│   │   └── README.md
│   ├── glm-130b/
│   │   └── README.md
│   ├── glm4.md
│   ├── gpt/
│   │   └── README.md
│   ├── gpt2/
│   │   ├── README.md
│   │   ├── hf_modeling_gpt2.py
│   │   └── 模型架构.md
│   ├── gpt3/
│   │   └── README.md
│   ├── llama/
│   │   ├── README.md
│   │   └── 模型架构.md
│   ├── llama.md
│   ├── mixtral/
│   │   └── README.md
│   ├── mlp.md
│   ├── moe/
│   │   └── README.md
│   ├── qwen/
│   │   ├── README.md
│   │   └── 参数说明及函数说明.md
│   ├── qwen2.md
│   ├── t5/
│   │   └── README.md
│   ├── transformer/
│   │   ├── README.md 
│   │   ├── Transformer中FFN的记忆功能.md
│   │   └── 模型架构.md
│   ├── transformer.md
│   ├── 基本概念.md
│   ├── 旋转编码RoPE.md
│   ├── 模型架构类图.drawio
│   └── 训练范式.md
├── llm-alignment/
│   ├── DPO.md
│   ├── README.md
│   ├── RLHF.md
│   └── 基本概念.md
├── llm-application/
│   ├── Higress.md
│   ├── README.md
│   ├── agent/
│   │   ├── OpenClaw.md
│   │   └── OpenCode/
│   │       └── README.md
│   ├── embbedding-model.md
│   ├── gradio/
│   │   └── README.md
│   ├── langchain/
│   │   ├── README.md
│   │   ├── serve.py
│   │   └── tutorials/
│   │       ├── client.py
│   │       └── serve.py
│   ├── one-api.md
│   ├── pre-post-handle/
│   │   └── README.md
│   ├── rag/
│   │   ├── README.md
│   │   ├── embedding.md
│   │   ├── 存在的一些问题.md
│   │   └── 方案.md
│   ├── vector-db/
│   │   ├── README.md
│   │   └── reference.md
│   └── 应用场景.md
├── llm-compression/
│   ├── PaddleSlim/
│   │   ├──  quantization.md
│   │   └── README.md
│   ├── README.md
│   ├── distillation/
│   │   ├── GKD.md
│   │   ├── MINILLM.md
│   │   ├── README.md
│   │   ├── SCOTT.md
│   │   └── 大模型蒸馏概述.md
│   ├── gptqmodel/
│   │   └── README.md
│   ├── llm-compressor/
│   │   ├── README.md
│   │   ├── source-code.md
│   │   ├── 剪枝.md
│   │   └── 量化方案.md
│   ├── quantization/
│   │   ├── FP6-LLM.md
│   │   ├── GPTQ.md
│   │   ├── LLM-int8.md
│   │   ├── PEQA.md
│   │   ├── QQQ-W4A8.md
│   │   ├── README.md
│   │   ├── SmoothQuant.md
│   │   ├── SpinQuant.md
│   │   ├── ZeroQuant(4+2).md
│   │   ├── ZeroQuant.md
│   │   ├── fp4.md
│   │   ├── fp6.md
│   │   ├── fp8.md
│   │   ├── kv-cache-quant.md
│   │   ├── llm-qat/
│   │   │   ├── LLM-QAT.md
│   │   │   ├── README.md
│   │   │   ├── cfd70ff/
│   │   │   │   ├── README.md
│   │   │   │   ├── generate_data.py
│   │   │   │   ├── inference.py
│   │   │   │   ├── merge_gen_data.py
│   │   │   │   ├── pip.conf
│   │   │   │   ├── run_train.sh
│   │   │   │   ├── train.py
│   │   │   │   └── utils.py
│   │   │   ├── f4d873a/
│   │   │   │   ├── datautils.py
│   │   │   │   ├── run_train.sh
│   │   │   │   └── train.py
│   │   │   └── log.md
│   │   ├── moe模型量化.md
│   │   ├── tools.md
│   │   ├── 可视化/
│   │   │   ├── README.md
│   │   │   ├── qwen_activate_visual.ipynb
│   │   │   └── qwen_visual.ipynb
│   │   ├── 大模型量化概述.md
│   │   └── 量化基础.md
│   ├── sparsity/
│   │   └── README.md
│   ├── tools.md
│   ├── 大模型压缩综述.md
│   └── 经验.md
├── llm-data-engineering/
│   ├── README.md
│   ├── dataset/
│   │   ├── README.md
│   │   ├── baichuan2.md
│   │   ├── chinese-corpus-all.md
│   │   └── english-corpus-all.md
│   ├── reference.md
│   └── sft-dataset/
│       ├── baichuan2_test.py
│       ├── evol-instruct.md
│       ├── firefly-template.py
│       ├── jinja-demo.py
│       ├── jinja-llm-baichuan.py
│       ├── jinja-llm-baichuan2.py
│       ├── jinja-llm-bloom.py
│       ├── jinja-llm-chatglm3.py
│       ├── jinja-llm.py
│       ├── jinja.md
│       ├── 数据格式设计.md
│       └── 数据集格式.md
├── llm-eval/
│   ├── EvalScope.md
│   ├── README.md
│   ├── eval-data/
│   │   ├── longtext_L115433-question.txt
│   │   ├── longtext_L115433.txt
│   │   ├── longtext_L32503_answer.txt
│   │   ├── longtext_L32503_question.txt
│   │   ├── longtext_L64031.txt
│   │   └── longtext_L64031_question.txt
│   ├── llm-performance/
│   │   ├── AI芯片性能.md
│   │   ├── README.md
│   │   ├── hardware-performance/
│   │   │   ├── gpu-monitor-ui.py
│   │   │   └── pynvml-stat-memory.py
│   │   ├── llmperf.md
│   │   ├── mindie/
│   │   │   ├── lantency/
│   │   │   │   ├── README.md
│   │   │   │   ├── perfermance-stat.py
│   │   │   │   ├── performance-stream-baichuan2.py
│   │   │   │   ├── performance-stream-chatglm3.py
│   │   │   │   ├── performance-stream-qwen1.5.py
│   │   │   │   ├── performance-stream-qwen1.py
│   │   │   │   ├── performance-stream.py
│   │   │   │   └── stat_input_token.py
│   │   │   └── locust-lantency-throughput/
│   │   │       ├── README.md
│   │   │       ├── hello.py
│   │   │       ├── llm-910b4-baichuan2-7b-2tp.py
│   │   │       ├── llm-910b4-chatglm3-6b-2tp.py
│   │   │       ├── llm-910b4-qwen-72b-8tp.py
│   │   │       ├── llm-910b4-qwen1.5-4tp.py
│   │   │       ├── qwen1.5-72b-8tp.html
│   │   │       └── 示例.py
│   │   ├── perfetto.md
│   │   ├── stat_gpu_memory.py
│   │   ├── tgi-benchmark.md
│   │   ├── vllm/
│   │   │   ├── README.md
│   │   │   ├── vllm-locust-qwen1.5-7b-long.py
│   │   │   └── vllm-performance-stream-qwen1.5-long.py
│   │   ├── vllm-benchmark.md
│   │   ├── wrk-性能测试工具.md
│   │   ├── 大模型场景下训练和推理性能指标名词解释.md
│   │   ├── 推理性能测试.md
│   │   └── 训练性能测试.md
│   ├── llm-precision/
│   │   ├── C-Eval.md
│   │   ├── README.md
│   │   └── 模型质量评估.md
│   ├── opencompass.md
│   └── 大模型测评集.md
├── llm-inference/
│   ├── DeepSpeed-Inference.md
│   ├── Flash-Decoding.md
│   ├── FlashInfer.md
│   ├── FlexFlow-Serve.md
│   ├── GuidedGeneration.md
│   ├── KV-Cache优化.md
│   ├── Mooncake.md
│   ├── NanoFlow.md
│   ├── PD分离.md
│   ├── README.md
│   ├── RTP-LLM.md
│   ├── ascend/
│   │   └── mindformers/
│   │       ├── README.md
│   │       ├── baichuan2/
│   │       │   ├── README.md
│   │       │   ├── baichuan-inference.py
│   │       │   └── baichuan-stat.py
│   │       ├── chatglm3/
│   │       │   ├── README.md
│   │       │   ├── chatglm-gen.py
│   │       │   ├── chatglm-inference.py
│   │       │   └── chatglm-stat.py
│   │       ├── mindsporelite-inference.py
│   │       ├── mindsporelite-stat.py
│   │       └── text_generator_infer.py
│   ├── chatgpt.md
│   ├── deepspeed-mii/
│   │   └── README.md
│   ├── faster-transformer/
│   │   ├── README.md
│   │   ├── bloom/
│   │   │   ├── README.md
│   │   │   └── firefly_lambada_1w_stat_token.py
│   │   ├── gpt/
│   │   │   └── README.md
│   │   ├── llama/
│   │   │   └── README.md
│   │   └── megatron-gpt2/
│   │       ├── gpt_summarization.py
│   │       ├── gpt_summarization_stat.py
│   │       └── megatron-gpt2-fp8.md
│   ├── flexflow-serve/
│   │   └── benchmark-batch1.py
│   ├── huggingface-tgi/
│   │   └── README.md
│   ├── huggingface-transformer/
│   │   └── README.md
│   ├── lightllm/
│   │   └── README.md
│   ├── lmdeploy/
│   │   ├── README.md
│   │   ├── 功能.md
│   │   └── 服务启动参数.md
│   ├── native-model/
│   │   └── chatglm3-6b/
│   │       └── cli_demo.py
│   ├── offload.md
│   ├── openai.md
│   ├── sglang/
│   │   ├── README.md
│   │   ├── source-code.md
│   │   ├── 服务器启动参数.md
│   │   └── 项目代码结构.md
│   ├── tensorrt/
│   │   ├── README.md
│   │   └── install.md
│   ├── tensorrt-llm/
│   │   ├── FP8.md
│   │   ├── Memory Usage of TensorRT-LLM.md
│   │   ├── README.md
│   │   ├── TRT-LLM引擎构建参数.md
│   │   ├── Triton服务启动参数.md
│   │   └── 安装.md
│   ├── triton/
│   │   ├── REAEME.md
│   │   ├── onnx/
│   │   │   └── README.md
│   │   └── resnet50/
│   │       ├── client.py
│   │       ├── config.pbtxt
│   │       ├── labels.txt
│   │       └── resnet50_convert_torchscript.py
│   ├── vllm/
│   │   ├── FAQ.md
│   │   ├── FP8.md
│   │   ├── README.md
│   │   ├── REF.md
│   │   ├── api_client.py
│   │   ├── cmd.md
│   │   ├── vllm.md
│   │   ├── 服务启动参数.md
│   │   ├── 源码.md
│   │   ├── 请求处理流程.md
│   │   └── 长文本推理.md
│   ├── web/
│   │   ├── fastapi/
│   │   │   ├── README.md
│   │   │   └── llm-qwen-mindspore-lite.py
│   │   ├── flask/
│   │   │   ├── README.md
│   │   │   └── llm-qwen-mindspore-lite.py
│   │   └── sanic/
│   │       └── README.md
│   ├── xinference/
│   │   └── README.md
│   ├── 分离式推理架构.md
│   ├── 大模型推理张量并行.md
│   └── 解码策略.md
├── llm-interview/
│   ├── README.md
│   ├── base.md
│   ├── comprehensive.md
│   ├── llm-algo.md
│   ├── llm-app.md
│   ├── llm-compress.md
│   ├── llm-eval.md
│   ├── llm-ft.md
│   ├── llm-inference.md
│   ├── llm-rlhf.md
│   └── llm-train.md
├── llm-localization/
│   ├── README.md
│   ├── ascend/
│   │   ├── FAQ.md
│   │   ├── README.md
│   │   ├── ascend-c/
│   │   │   └── README.md
│   │   ├── ascend-infra/
│   │   │   ├── HCCL.md
│   │   │   ├── MacOS环境.md
│   │   │   ├── ascend-dmi.md
│   │   │   ├── ascend-docker-runtime.md
│   │   │   ├── ascend-docker.md
│   │   │   ├── ascend-llm下载.md
│   │   │   ├── ascend-npu-smi.md
│   │   │   ├── docker环境升级cann.md
│   │   │   ├── network.md
│   │   │   ├── npu监控.md
│   │   │   ├── 操作系统.md
│   │   │   ├── 昇腾卡-soc版本.md
│   │   │   ├── 昇腾卡注意事项.md
│   │   │   ├── 昇腾镜像.md
│   │   │   ├── 服务器配置.md
│   │   │   ├── 环境安装.md
│   │   │   └── 达芬奇架构.md
│   │   ├── ascend910-env-install.md
│   │   ├── fabric-insight/
│   │   │   └── README.md
│   │   ├── firefly-ascend.md
│   │   ├── mindformers/
│   │   │   ├── README.md
│   │   │   ├── baichuan2/
│   │   │   │   ├── baichuan2训练.md
│   │   │   │   ├── run_baichuan2_7b.yaml
│   │   │   │   ├── run_baichuan2_7b_910b.yaml
│   │   │   │   └── run_baichuan2_7b_lora_910b.yaml
│   │   │   ├── chatglm/
│   │   │   │   ├── README.md
│   │   │   │   ├── chat_glm.py
│   │   │   │   ├── glm_6b.yaml
│   │   │   │   ├── glm_6b_chat.yaml
│   │   │   │   ├── merge_ckpt.py
│   │   │   │   ├── merge_ckpt_lora.py
│   │   │   │   ├── pt2ms.py
│   │   │   │   ├── run_glm_6b_finetune.yaml
│   │   │   │   ├── run_glm_6b_infer.yaml
│   │   │   │   ├── run_glm_6b_lora.yaml
│   │   │   │   └── run_glm_6b_lora_infer.yaml
│   │   │   ├── env.md
│   │   │   ├── llama/
│   │   │   │   └── README.md
│   │   │   ├── qwen/
│   │   │   │   ├── qwen1训练.md
│   │   │   │   ├── run_qwen_7b.yaml
│   │   │   │   └── run_qwen_7b_910b.yaml
│   │   │   ├── qwen1.5/
│   │   │   │   ├── qwen1.5训练.md
│   │   │   │   ├── run_qwen1_5_7b_finetune.yaml
│   │   │   │   └── run_qwen1_5_7b_infer.yaml
│   │   │   ├── trick.md
│   │   │   └── 权重格式转换.md
│   │   ├── mindie/
│   │   │   ├── 2.0.RC2/
│   │   │   │   └── qwen.md
│   │   │   ├── README.md
│   │   │   ├── config/
│   │   │   │   ├── chatglm3-6b.json
│   │   │   │   ├── qwen-72b.json
│   │   │   │   └── run.sh
│   │   │   ├── config-1.0.RC1.json
│   │   │   ├── docker/
│   │   │   │   ├── README.md
│   │   │   │   ├── TEST.md
│   │   │   │   ├── baichuan2-13b.json
│   │   │   │   ├── baichuan2-7b.json
│   │   │   │   ├── deploy.sh
│   │   │   │   ├── install_and_enable_cann.sh
│   │   │   │   ├── llm-server.sh
│   │   │   │   ├── mindie-1.0.Dockerfile
│   │   │   │   ├── mindie-all-1.0.Dockerfile
│   │   │   │   ├── mindie-env-1.0.Dockerfile
│   │   │   │   ├── qwen-72b.json
│   │   │   │   ├── qwen1.5-14b.json
│   │   │   │   ├── qwen1.5-72b.json
│   │   │   │   └── qwen1.5-7b.json
│   │   │   ├── llm-server.sh
│   │   │   ├── mindid-1.0-offical.md
│   │   │   ├── mindid-performance.md
│   │   │   ├── mindie-1.0.Dockerfile
│   │   │   ├── mindie-1.0.RC2.md
│   │   │   ├── mindie-1.0.md
│   │   │   ├── mindie-1.0.rc2-config.json
│   │   │   ├── mindie-1.0.rc2-llm-server.sh
│   │   │   ├── mindie-2.0.rc2.md
│   │   │   ├── mindie-20240411.md
│   │   │   ├── mindie-api.md
│   │   │   ├── model-test.md
│   │   │   ├── script/
│   │   │   │   ├── model-test.py
│   │   │   │   └── run.sh
│   │   │   ├── 性能调优.md
│   │   │   └── 日志分析.txt
│   │   ├── mindspore/
│   │   │   ├── MindSpore-note.md
│   │   │   ├── README.md
│   │   │   ├── bert.md
│   │   │   ├── reference.md
│   │   │   └── 镜像.md
│   │   ├── modellink/
│   │   │   ├── README.md
│   │   │   ├── dataset.md
│   │   │   ├── llm.md
│   │   │   ├── qwen.md
│   │   │   ├── 环境-20240521.md
│   │   │   └── 环境安装.md
│   │   ├── msmodelslim/
│   │   │   ├── README.md
│   │   │   └── llm_quant/
│   │   │       ├── baichuan2-w8a8.py
│   │   │       ├── calib_set.json
│   │   │       └── qwen1.5-72b-w8a16.py
│   │   ├── openmind/
│   │   │   └── README.md
│   │   ├── peft/
│   │   │   ├── README.md
│   │   │   └── finetune-lora.py
│   │   ├── pytorch/
│   │   │   ├── README.md
│   │   │   └── llm-lora.py
│   │   ├── standford-alpaca/
│   │   │   ├── README.md
│   │   │   ├── ds_config_zero2.json
│   │   │   ├── ds_config_zero3.json
│   │   │   ├── requirements.txt
│   │   │   ├── train.py
│   │   │   └── utils.py
│   │   ├── transformers/
│   │   │   └── README.md
│   │   ├── vllm-ascend/
│   │   │   └── README.md
│   │   ├── 优质学习资料.md
│   │   ├── 昇腾LLM支持概览.md
│   │   └── 昇腾卡注意事项.md
│   ├── modelscope/
│   │   └── README.md
│   ├── paddle/
│   │   └── PaddleNLP.md
│   └── tianshuzhixin/
│       ├── README.md
│       └── ixsmi.md
├── llm-maas/
│   ├── OpenAI-ChatGPT.md
│   └── README.md
├── llm-optimizer/
│   ├── FlashAttention.md
│   ├── README.md
│   ├── SplitFuse.md
│   ├── kv-cache.md
│   ├── xformers.md
│   └── 计算通信重叠.md
├── llm-pipeline/
│   └── REAEMD.md
├── llm-tools/
│   ├── Pytorch-Profiler.md
│   ├── README.md
│   ├── base-profiler.py
│   ├── nsight/
│   │   └── README.md
│   ├── nsight.md
│   ├── nvtx.md
│   ├── profiler-recipe.py
│   ├── tensorboard-profiler.py
│   └── 可视化.md
├── llm-train/
│   ├── README.md
│   ├── alpa/
│   │   └── train/
│   │       ├── pipeshard_parallelism.ipynb
│   │       └── pipeshard_parallelism.py
│   ├── alpaca/
│   │   ├── README.md
│   │   ├── ds_config.json
│   │   ├── ds_config_zero2.json
│   │   ├── ds_config_zero2_ddp.json
│   │   ├── inference.py
│   │   ├── train.py
│   │   └── train_ddp.py
│   ├── alpaca-lora/
│   │   ├── README.md
│   │   ├── export_hf_checkpoint.py
│   │   ├── export_state_dict_checkpoint.py
│   │   ├── finetune.py
│   │   ├── finetune_metrics_epoch.py
│   │   ├── generate.py
│   │   └── inference.py
│   ├── chatglm/
│   │   ├── README.md
│   │   ├── deepspeed.json
│   │   ├── ds_train_finetune.sh
│   │   ├── evaluate.sh
│   │   ├── evaluate_finetune.sh
│   │   ├── inference.py
│   │   ├── main.py
│   │   ├── train.sh
│   │   └── train_ptuningv2_dp.sh
│   ├── chatglm-lora/
│   │   ├── README.md
│   │   ├── finetune.py
│   │   ├── finetune_ddp.py
│   │   └── inference.py
│   ├── chinese-llama-alpaca/
│   │   ├── README.md
│   │   ├── inference_hf.py
│   │   ├── merge_llama_with_chinese_lora.py
│   │   ├── merge_tokenizers.py
│   │   ├── run_clm_pt_with_peft.py
│   │   ├── run_clm_sft_with_peft.py
│   │   ├── run_pt.sh
│   │   └── run_sft.sh
│   ├── deepspeedchat/
│   │   ├── README.md
│   │   ├── llama/
│   │   │   └── README.md
│   │   └── training/
│   │       ├── step1_supervised_finetuning/
│   │       │   └── training_scripts/
│   │       │       └── single_node/
│   │       │           └── run_13b.sh
│   │       ├── step2_reward_model_finetuning/
│   │       │   └── training_scripts/
│   │       │       └── single_node/
│   │       │           └── run_350m.sh
│   │       ├── step3_rlhf_finetuning/
│   │       │   └── training_scripts/
│   │       │       └── single_node/
│   │       │           └── run_13b.sh
│   │       └── utils/
│   │           └── data/
│   │               └── raw_datasets.py
│   ├── firefly/
│   │   ├── README.md
│   │   ├── bootstrap-s3.sh
│   │   ├── bootstrap.sh
│   │   ├── dockerfile.md
│   │   └── test_bash_getopts.sh
│   ├── fp8.md
│   ├── galore/
│   │   └── torchrun_main.py
│   ├── megatron/
│   │   ├── README.md
│   │   ├── codegeex/
│   │   │   └── README.md
│   │   ├── gpt2/
│   │   │   ├── README.md
│   │   │   ├── data/
│   │   │   │   ├── cMinhash.cpp
│   │   │   │   ├── download.py
│   │   │   │   ├── file_utils.py
│   │   │   │   └── merge_data.py
│   │   │   ├── gpt-data-preprocess.md
│   │   │   ├── merge_ck_and_inference/
│   │   │   │   ├── README.md
│   │   │   │   ├── checkpoint_loader_megatron.py
│   │   │   │   ├── checkpoint_saver_megatron.py
│   │   │   │   ├── checkpoint_util.py
│   │   │   │   ├── eval_gpt2_lambada.sh
│   │   │   │   ├── run_text_generation_server.py
│   │   │   │   ├── run_text_generation_server_345M.sh
│   │   │   │   ├── run_text_generation_server_345M_2tp_2dp.sh
│   │   │   │   ├── run_text_generation_server_345M_4_tensor_parallel.sh
│   │   │   │   └── text_generation_cli.py
│   │   │   ├── model_merge_eval_inference.md
│   │   │   ├── model_train.md
│   │   │   ├── requirements.txt
│   │   │   └── train/
│   │   │       ├── pretrain_gpt.sh
│   │   │       ├── pretrain_gpt_distributed.sh
│   │   │       ├── pretrain_gpt_distributed_with_4pp.sh
│   │   │       ├── pretrain_gpt_distributed_with_4tp.sh
│   │   │       └── pretrain_gpt_distributed_with_mp.sh
│   │   ├── megatron.drawio
│   │   ├── pretrain.xmind
│   │   ├── project.md
│   │   └── source-code.md
│   ├── megatron-deepspeed/
│   │   ├── README.md
│   │   ├── bigscience/
│   │   │   └── bloom-note.md
│   │   ├── bloom-megatron-deepspeed.md
│   │   ├── microsoft/
│   │   │   ├── H800多机多卡训练坑点.md
│   │   │   ├── README.md
│   │   │   ├── llama-note.md
│   │   │   ├── pip.conf
│   │   │   ├── pretrain_llama2_13b_distributed_fp16.sh
│   │   │   ├── pretrain_llama2_distributed.sh
│   │   │   ├── pretrain_llama_13b_distributed_fp16.sh
│   │   │   ├── pretrain_llama_7b_distributed_fp16.sh
│   │   │   ├── pretrain_llama_distributed_fp16.sh
│   │   │   ├── slurm/
│   │   │   │   ├── README.md
│   │   │   │   ├── llama-multinode-ib.sh
│   │   │   │   ├── megatron-deepspeed-multinode-ib-part2-30b-fp16.slurm
│   │   │   │   └── megatron-deepspeed-multinode-ib-part2-65b-fp16.slurm
│   │   │   ├── 代码.md
│   │   │   ├── 环境准备.md
│   │   │   ├── 训练日志分析.md
│   │   │   └── 项目结构-202312228.md
│   │   └── source-code.md
│   ├── paddle/
│   │   ├── README.md
│   │   └── paddlenlp/
│   │       ├── README.md
│   │       ├── baichuan2/
│   │       │   └── README.md
│   │       └── bloom/
│   │           ├── README.md
│   │           └── sft_argument.json
│   ├── peft/
│   │   ├── LoRA-QLoRA.md
│   │   ├── PEFT-API.md
│   │   ├── Prefix-Tuning.md
│   │   ├── Prompt-Tuning.md
│   │   ├── README.md
│   │   ├── clm/
│   │   │   ├── accelerate_ds_zero3_cpu_offload_config.yaml
│   │   │   ├── peft_ia3_clm.ipynb
│   │   │   ├── peft_lora_clm.ipynb
│   │   │   ├── peft_lora_clm_accelerate_ds_zero3_offload.py
│   │   │   ├── peft_p_tuning_clm.ipynb
│   │   │   ├── peft_p_tuning_lstm_clm.ipynb
│   │   │   ├── peft_p_tuning_v2_clm.ipynb
│   │   │   ├── peft_prefix_tuning_clm.ipynb
│   │   │   └── peft_prompt_tuning_clm.ipynb
│   │   ├── conditional_generation/
│   │   │   └── README.md
│   │   └── multimodal/
│   │       ├── blip2_lora_inference.py
│   │       ├── blip2_lora_int8_fine_tune.py
│   │       └── finetune_bloom_bnb_peft.ipynb
│   ├── pytorch/
│   │   ├── Pytorch源码解读.md
│   │   ├── README.md
│   │   ├── api.md
│   │   ├── distribution/
│   │   │   ├── README.md
│   │   │   ├── api.md
│   │   │   ├── data-parallel/
│   │   │   │   ├── README.md
│   │   │   │   ├── ddp_launch.py
│   │   │   │   ├── ddp_main.py
│   │   │   │   ├── elastic_ddp.py
│   │   │   │   ├── minGPT-ddp/
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── multinode.sh
│   │   │   │   │   ├── sbatch_run.sh
│   │   │   │   │   ├── sbatch_run_sig.sh
│   │   │   │   │   └── sbatch_run_sig_opt.sh
│   │   │   │   ├── sbatch_run.sh
│   │   │   │   └── 使用DDP训练真实世界的模型.md
│   │   │   ├── pipeline-parallel/
│   │   │   │   ├── 1-流水线.md
│   │   │   │   ├── 2-使用torchtext训练transformer模型.md
│   │   │   │   ├── 3-使用流水线并行训练Transformer模型.md
│   │   │   │   ├── 4-使用DDP与流水线并行训练Transformer模型.md
│   │   │   │   ├── README.md
│   │   │   │   ├── ddp_pipeline.py
│   │   │   │   ├── pipeline_tutorial.ipynb
│   │   │   │   └── transformer_tutorial.ipynb
│   │   │   ├── rpc/
│   │   │   │   └── README.md
│   │   │   ├── sequence-parallelism/
│   │   │   │   └── README.md
│   │   │   ├── tensor-parallel/
│   │   │   │   ├── 2d_parallel_example.py
│   │   │   │   ├── README.md
│   │   │   │   ├── sequence_parallel_example.py
│   │   │   │   ├── tensor_parallel_example.py
│   │   │   │   └── utils.py
│   │   │   ├── torchrun.md
│   │   │   ├── 分布式通信包.md
│   │   │   ├── 多机多卡.md
│   │   │   └── 多机训练.md
│   │   ├── resource.md
│   │   └── torchrun.md
│   ├── qlora/
│   │   ├── README.md
│   │   ├── accuracy.py
│   │   ├── export_hf_checkpoint.py
│   │   ├── inference.py
│   │   ├── inference_merge.py
│   │   ├── inference_qlora.py
│   │   └── qlora.py
│   ├── slurm/
│   │   ├── README.md
│   │   ├── deepspeed/
│   │   │   ├── pp-multinode-machine.slurm
│   │   │   ├── pp-multinode-singularity.slurm
│   │   │   ├── pp-mutinode-singularity-pmix.slurm
│   │   │   ├── pp-standalone-singularity-v2.slurm
│   │   │   └── pp-standalone-singularity.slurm
│   │   ├── megatron-deepspeed/
│   │   │   └── megatron-deepspeed-multinode-ib-part2-65b-fp16.slurm
│   │   └── pytorch/
│   │       ├── alpaca-docker.slurm
│   │       ├── alpaca-machine.slurm
│   │       ├── alpaca-singularity.slurm
│   │       ├── mingpt-singularity-multinode-2.slurm
│   │       └── mingpt-singularity-multinode.slurm
│   └── vicuna/
│       └── README.md
├── llmops/
│   ├── FAQ.md
│   ├── README.md
│   ├── kubernetes.md
│   ├── tq-llm/
│   │   └── train/
│   │       ├── FAQ.md
│   │       ├── README.md
│   │       ├── bootstrap-llm-zero3-offload.sh
│   │       ├── bootstrap-llm.sh
│   │       ├── bootstrap-llm2.sh
│   │       ├── zero2-offload.json
│   │       └── zero3-offload.json
│   ├── 使用docker进行多机多卡训练.md
│   ├── 千帆大模型平台.md
│   └── 模型推理平台方案.md
├── mkdir-dir-file.sh
├── paper/
│   ├── A Survey on Efficient Training of Transformers.md
│   ├── LESS-选择有影响力的数据进行目标指令精调.md
│   ├── LLM增强LLMS.md
│   ├── PagedAttention.md
│   ├── README.md
│   ├── data/
│   │   ├── LESS 实践：仅用少量的数据完成目标指令微调.md
│   │   ├── LESS-选择有影响力的数据进行目标指令精调.md
│   │   └── LESS.md
│   ├── inference/
│   │   ├── llm-in-a-flash.md
│   │   ├── orca.md
│   │   └── 迈向高效的生成式大语言模型服务综述-从算法到系统.md
│   ├── llm对齐综述.md
│   ├── moe/
│   │   └── README.md
│   ├── parameter-pruning/
│   │   ├── LLM-Pruner.md
│   │   ├── SparseGPT.md
│   │   ├── Wanda.md
│   │   └── 公式.md
│   └── training/
│       ├── A Survey on Efficient Training of Transformers.md
│       ├── GaLore.md
│       └── Reducing Activation Recomputation in Large Transformer Models.md
└── template/
    └── server.md