gitextract_d6bmv_gd/ ├── .gitignore ├── README.md ├── collect_env.py ├── communication.ipynb ├── data/ │ ├── winequality-red.csv │ ├── winequality-white.csv │ └── winequality.names ├── torch_distributed_supp.ipynb └── tutorials/ ├── 01_multi_gpus_data_parallelism.ipynb ├── 02_ddp_basics.ipynb ├── 03_ddp_toy_example.ipynb ├── 04_model_parallel_resnet50.ipynb ├── 3D-parallel/ │ ├── SP-序列并行.ipynb │ ├── fsdp_fsdp2.ipynb │ ├── mesh.py │ └── ring-allreduce.ipynb ├── CUDA_RPC.ipynb ├── FSDP.ipynb ├── amp_autocast_mixed_precision_training.ipynb ├── backends.ipynb ├── bitsandbytes/ │ └── bnd_basics.ipynb ├── cpu_memory/ │ └── cpu_memory.ipynb ├── cpu_multi_cores_machine_learning.ipynb ├── cpu_parallel_openmp.ipynb ├── ddp_gpus.py ├── ddp_gpus_torchrun.py ├── deepspeed_accelerate/ │ ├── 3D并行.ipynb │ ├── accelerate_basics_scripts.py │ ├── accelerate_config.ipynb │ ├── accelerate_inference.ipynb │ ├── bert_ds.py │ ├── bitsandbytes_accelerate.ipynb │ ├── deepspeed_basics.ipynb │ ├── deepspeed_实践.ipynb │ ├── ds_examples.ipynb │ ├── ds_offload.ipynb │ ├── megtron_lm.ipynb │ ├── torchrun_deepspeed_accelerate.ipynb │ └── utils/ │ ├── helloworld.py │ └── multi_gpus_inference.py ├── infra/ │ ├── PPO_workflow.ipynb │ ├── mfu_flops.ipynb │ ├── misc/ │ │ └── flash_attn.ipynb │ ├── openrlhf/ │ │ ├── openrlhf_basics.ipynb │ │ └── openrlhf_分布式训练流程.ipynb │ ├── ray/ │ │ ├── ray_basics.ipynb │ │ ├── ray_debugger.ipynb │ │ ├── ray_python.ipynb │ │ └── ray_资源管理与调度.ipynb │ └── verl/ │ ├── parquet_data_process.ipynb │ ├── verl.ipynb │ └── verl_in_action.ipynb ├── kv-cache.ipynb ├── mpi.ipynb ├── nvcc_cuda/ │ ├── cuda_mm.ipynb │ ├── pinned_memory_non_blocking.ipynb │ ├── tensor-core.ipynb │ ├── tensorrt-docker.ipynb │ └── untitled.txt ├── overall.ipynb ├── pipeline_parallel.ipynb ├── quant/ │ ├── clustering.ipynb │ ├── fp32_fp16_bf16_tf32.ipynb │ └── 基本概念.ipynb ├── snapshot.pt ├── tensor_cores.ipynb ├── tensor_parallel.ipynb ├── torch_dist.py ├── torch_distributed_basics.ipynb ├── torch_nccl_collective_communication.ipynb ├── torch_nccl_test.py ├── 一些补充(ddp、多机多卡).ipynb └── 分布式训练细节.ipynb