gitextract_d6bmv_gd/

├── .gitignore
├── README.md
├── collect_env.py
├── communication.ipynb
├── data/
│   ├── winequality-red.csv
│   ├── winequality-white.csv
│   └── winequality.names
├── torch_distributed_supp.ipynb
└── tutorials/
    ├── 01_multi_gpus_data_parallelism.ipynb
    ├── 02_ddp_basics.ipynb
    ├── 03_ddp_toy_example.ipynb
    ├── 04_model_parallel_resnet50.ipynb
    ├── 3D-parallel/
    │   ├── SP-序列并行.ipynb
    │   ├── fsdp_fsdp2.ipynb
    │   ├── mesh.py
    │   └── ring-allreduce.ipynb
    ├── CUDA_RPC.ipynb
    ├── FSDP.ipynb
    ├── amp_autocast_mixed_precision_training.ipynb
    ├── backends.ipynb
    ├── bitsandbytes/
    │   └── bnd_basics.ipynb
    ├── cpu_memory/
    │   └── cpu_memory.ipynb
    ├── cpu_multi_cores_machine_learning.ipynb
    ├── cpu_parallel_openmp.ipynb
    ├── ddp_gpus.py
    ├── ddp_gpus_torchrun.py
    ├── deepspeed_accelerate/
    │   ├── 3D并行.ipynb
    │   ├── accelerate_basics_scripts.py
    │   ├── accelerate_config.ipynb
    │   ├── accelerate_inference.ipynb
    │   ├── bert_ds.py
    │   ├── bitsandbytes_accelerate.ipynb
    │   ├── deepspeed_basics.ipynb
    │   ├── deepspeed_实践.ipynb
    │   ├── ds_examples.ipynb
    │   ├── ds_offload.ipynb
    │   ├── megtron_lm.ipynb
    │   ├── torchrun_deepspeed_accelerate.ipynb
    │   └── utils/
    │       ├── helloworld.py
    │       └── multi_gpus_inference.py
    ├── infra/
    │   ├── PPO_workflow.ipynb
    │   ├── mfu_flops.ipynb
    │   ├── misc/
    │   │   └── flash_attn.ipynb
    │   ├── openrlhf/
    │   │   ├── openrlhf_basics.ipynb
    │   │   └── openrlhf_分布式训练流程.ipynb
    │   ├── ray/
    │   │   ├── ray_basics.ipynb
    │   │   ├── ray_debugger.ipynb
    │   │   ├── ray_python.ipynb
    │   │   └── ray_资源管理与调度.ipynb
    │   └── verl/
    │       ├── parquet_data_process.ipynb
    │       ├── verl.ipynb
    │       └── verl_in_action.ipynb
    ├── kv-cache.ipynb
    ├── mpi.ipynb
    ├── nvcc_cuda/
    │   ├── cuda_mm.ipynb
    │   ├── pinned_memory_non_blocking.ipynb
    │   ├── tensor-core.ipynb
    │   ├── tensorrt-docker.ipynb
    │   └── untitled.txt
    ├── overall.ipynb
    ├── pipeline_parallel.ipynb
    ├── quant/
    │   ├── clustering.ipynb
    │   ├── fp32_fp16_bf16_tf32.ipynb
    │   └── 基本概念.ipynb
    ├── snapshot.pt
    ├── tensor_cores.ipynb
    ├── tensor_parallel.ipynb
    ├── torch_dist.py
    ├── torch_distributed_basics.ipynb
    ├── torch_nccl_collective_communication.ipynb
    ├── torch_nccl_test.py
    ├── 一些补充（ddp、多机多卡）.ipynb
    └── 分布式训练细节.ipynb