gitextract_sughb21j/ ├── .azuredevops/ │ ├── multinode-ci-nightly.yml │ ├── multinode-ci-pr.yml │ ├── multinode-ci-slurm-nightly.yml │ ├── multinode-ci-slurm-pr.yml │ ├── rocm-ci.yml │ ├── slurm/ │ │ ├── build.sh │ │ ├── test_rccl-UnitTests.sh │ │ └── test_rccl-tests.sh │ ├── templates/ │ │ ├── build.yml │ │ ├── test_rccl-UnitTests.yml │ │ └── test_rccl-tests.yml │ └── tests/ │ └── pytest/ │ └── HelloWorld.py ├── .clang-format ├── .github/ │ ├── CODEOWNERS │ ├── PULL_REQUEST_TEMPLATE.md │ ├── dependabot.yml │ ├── scripts/ │ │ └── therock_configure_ci.py │ └── workflows/ │ ├── therock-ci-linux.yml │ ├── therock-ci.yml │ ├── therock-test-packages-multi-node.yml │ └── therock-test-packages-single-node.yml ├── .gitignore ├── .gitmodules ├── .readthedocs.yaml ├── CHANGELOG.md ├── CMakeLists.txt ├── CppCheckSuppressions.txt ├── LICENSE.txt ├── Makefile ├── NOTICES.txt ├── README.md ├── cmake/ │ ├── CheckSymbolExistsNoWarn.cmake │ ├── Dependencies.cmake │ ├── DownloadProject.CMakeLists.cmake.in │ ├── DownloadProject.cmake │ ├── FindIBVerbs.cmake │ ├── Findmscclpp_nccl.cmake │ ├── Findrocshmem_static.cmake │ ├── MSCCLPP.cmake │ ├── ROCSHMEM.cmake │ ├── rcclRAS.cmake │ ├── rocmIb.cmake │ └── scripts/ │ ├── add_faults.sh │ ├── add_unroll.sh │ ├── extract_metadata.cmake │ └── git_version.cmake ├── docker/ │ ├── Dockerfile.ubuntu │ └── README.md ├── docs/ │ ├── .gitignore │ ├── api-reference/ │ │ ├── api-library.rst │ │ ├── env-variables.rst │ │ └── library-specification.rst │ ├── attributions.rst │ ├── conf.py │ ├── doxygen/ │ │ └── Doxyfile │ ├── how-to/ │ │ ├── rccl-usage-tips.rst │ │ ├── troubleshooting-rccl.rst │ │ ├── using-nccl.rst │ │ └── using-rccl-tuner-plugin-api.rst │ ├── index.rst │ ├── install/ │ │ ├── building-installing.rst │ │ ├── docker-install.rst │ │ └── installation.rst │ ├── license.rst │ ├── sphinx/ │ │ ├── _toc.yml.in │ │ ├── requirements.in │ │ └── requirements.txt │ └── what-is-rccl.rst ├── ext-net/ │ ├── README.md │ ├── example/ │ │ ├── CMakeLists.txt │ │ ├── Makefile │ │ ├── nccl/ │ │ │ ├── common.h │ │ │ ├── err.h │ │ │ ├── net.h │ │ │ ├── net_device.h │ │ │ ├── net_v10.h │ │ │ ├── net_v11.h │ │ │ ├── net_v2.h │ │ │ ├── net_v3.h │ │ │ ├── net_v4.h │ │ │ ├── net_v5.h │ │ │ ├── net_v6.h │ │ │ ├── net_v7.h │ │ │ ├── net_v8.h │ │ │ ├── net_v9.h │ │ │ └── types.h │ │ └── plugin.c │ └── google-fastsocket/ │ └── Makefile ├── ext-profiler/ │ ├── README.md │ ├── example/ │ │ ├── CMakeLists.txt │ │ ├── Makefile │ │ ├── README.md │ │ ├── event.h │ │ ├── nccl/ │ │ │ ├── common.h │ │ │ ├── err.h │ │ │ ├── net_ib_v1.h │ │ │ ├── net_socket_v1.h │ │ │ ├── profiler.h │ │ │ ├── profiler_net.h │ │ │ ├── profiler_v1.h │ │ │ ├── profiler_v2.h │ │ │ ├── profiler_v3.h │ │ │ ├── profiler_v4.h │ │ │ ├── profiler_v5.h │ │ │ └── types.h │ │ ├── plugin.cc │ │ ├── plugin.h │ │ ├── print_event.cc │ │ ├── print_event.h │ │ └── queue.h │ ├── google-CoMMA/ │ │ └── Makefile │ └── inspector/ │ ├── Makefile │ ├── README.md │ ├── exporter/ │ │ └── example/ │ │ ├── README.md │ │ ├── perf_summary_exporter.py │ │ └── requirements.txt │ ├── inspector.cc │ ├── inspector.h │ ├── inspector_plugin.cc │ ├── json.cc │ ├── json.h │ ├── nccl/ │ │ ├── common.h │ │ ├── profiler.h │ │ ├── profiler_net.h │ │ ├── profiler_v1.h │ │ ├── profiler_v2.h │ │ ├── profiler_v3.h │ │ ├── profiler_v4.h │ │ ├── profiler_v5.h │ │ └── types.h │ └── version.h ├── ext-src/ │ ├── bf16-tuning.patch │ ├── check_ibv_access_relaxed_ordering.cc │ ├── cpx.patch │ ├── device-flag.patch │ ├── disable-executor.patch │ ├── disable-format-checks.patch │ ├── mem-reg.patch │ ├── mscclpp_ibv_access_relaxed_ordering.patch │ ├── no-cache.patch │ ├── non-multiple-128-fix.patch │ ├── read-allred.patch │ ├── reg-fix.patch │ ├── remove-clip.patch │ └── rocm_netib.patch ├── ext-tuner/ │ ├── README.md │ ├── basic/ │ │ ├── Makefile │ │ ├── README.md │ │ ├── nccl/ │ │ │ ├── common.h │ │ │ ├── err.h │ │ │ └── tuner.h │ │ └── plugin.c │ ├── example/ │ │ ├── .gitignore │ │ ├── CMakeLists.txt │ │ ├── Makefile │ │ ├── README.md │ │ ├── nccl/ │ │ │ ├── common.h │ │ │ ├── err.h │ │ │ └── tuner.h │ │ ├── nccl_tuner.conf │ │ ├── plugin.c │ │ ├── scripts/ │ │ │ ├── README.md │ │ │ └── optimize_config.py │ │ └── test/ │ │ ├── Makefile │ │ ├── README.md │ │ └── test_plugin.c │ └── model_demo/ │ ├── Makefile │ ├── README.md │ ├── nccl/ │ │ ├── common.h │ │ ├── err.h │ │ └── tuner.h │ └── plugin.c ├── install.sh ├── makefiles/ │ ├── common.mk │ ├── formatting.mk │ └── version.mk ├── pkg/ │ ├── Makefile │ ├── debian/ │ │ ├── .gitignore │ │ ├── Makefile │ │ ├── changelog.in │ │ ├── compat │ │ ├── control.in │ │ ├── gbp.conf │ │ ├── libnccl-dev.install.in │ │ ├── libnccl2.install.in │ │ ├── rules │ │ └── source/ │ │ └── format │ ├── redhat/ │ │ ├── Makefile │ │ └── nccl.spec.in │ ├── srctxz/ │ │ ├── Makefile │ │ └── create_srctxz.sh.in │ └── txz/ │ ├── Makefile │ └── create_txz.sh.in ├── rtest.xml ├── src/ │ ├── CMakeLists.txt │ ├── Makefile │ ├── allocator.cc │ ├── bootstrap.cc │ ├── ce_coll.cc │ ├── channel.cc │ ├── collectives.cc │ ├── commDump.cc │ ├── debug.cc │ ├── dev_runtime.cc │ ├── device/ │ │ ├── CMakeLists.txt │ │ ├── Makefile │ │ ├── all_gather.h │ │ ├── all_reduce.h │ │ ├── alltoall_gda.h │ │ ├── alltoall_pivot.h │ │ ├── broadcast.h │ │ ├── common.cu │ │ ├── common.h │ │ ├── common_kernel.h │ │ ├── generate.py │ │ ├── msccl_kernel_impl.h │ │ ├── network/ │ │ │ └── unpack/ │ │ │ ├── unpack.h │ │ │ └── unpack_defs.h │ │ ├── onerank.cu │ │ ├── op128.h │ │ ├── primitives.h │ │ ├── prims_ll.h │ │ ├── prims_ll128.h │ │ ├── prims_simple.h │ │ ├── rccl_metadata.h │ │ ├── rccl_ptr.h │ │ ├── reduce.h │ │ ├── reduce_kernel.h │ │ ├── reduce_scatter.h │ │ ├── sendrecv.h │ │ └── symmetric/ │ │ ├── all_gather.cuh │ │ ├── all_reduce.cuh │ │ ├── generate.py │ │ ├── kernel.cuh │ │ ├── primitives.cuh │ │ └── reduce_scatter.cuh │ ├── enhcompat.cc │ ├── enqueue.cc │ ├── graph/ │ │ ├── CMakeLists.txt │ │ ├── connect.cc │ │ ├── paths.cc │ │ ├── rings.cc │ │ ├── rings.h │ │ ├── rome_models.cc │ │ ├── rome_models.h │ │ ├── search.cc │ │ ├── topo.cc │ │ ├── topo.h │ │ ├── trees.cc │ │ ├── tuning.cc │ │ ├── xml.cc │ │ └── xml.h │ ├── group.cc │ ├── include/ │ │ ├── BfdBacktrace.hpp │ │ ├── alloc.h │ │ ├── allocator.h │ │ ├── alt_rsmi.h │ │ ├── amdsmi_wrap.h │ │ ├── api_trace.h │ │ ├── archinfo.h │ │ ├── argcheck.h │ │ ├── bitops.h │ │ ├── bootstrap.h │ │ ├── ce_coll.h │ │ ├── channel.h │ │ ├── checks.h │ │ ├── coll_net.h │ │ ├── collectives.h │ │ ├── comm.h │ │ ├── core.h │ │ ├── cpuset.h │ │ ├── cudawrap.h │ │ ├── debug.h │ │ ├── dev_runtime.h │ │ ├── device.h │ │ ├── enqueue.h │ │ ├── gdrwrap.h │ │ ├── git_version.h │ │ ├── graph.h │ │ ├── group.h │ │ ├── hip_rocm_version_info.h │ │ ├── ibvcore.h │ │ ├── ibvsymbols.h │ │ ├── ibvwrap.h │ │ ├── info.h │ │ ├── ionic/ │ │ │ ├── ionicdvcore.h │ │ │ ├── ionicdvsymbols.h │ │ │ └── ionicdvwrap.h │ │ ├── ipcsocket.h │ │ ├── latency_profiler/ │ │ │ ├── CollTrace.h │ │ │ ├── CollTraceEvent.h │ │ │ ├── CollTraceFunc.h │ │ │ ├── CollTraceUtils.h │ │ │ ├── EventQueue.h │ │ │ └── MIT-LICENSE.txt │ │ ├── mlx5/ │ │ │ ├── mlx5dvcore.h │ │ │ ├── mlx5dvsymbols.h │ │ │ └── mlx5dvwrap.h │ │ ├── mnnvl.h │ │ ├── msccl/ │ │ │ ├── msccl_kernel.h │ │ │ ├── msccl_lifecycle.h │ │ │ ├── msccl_parser.h │ │ │ ├── msccl_scheduler.h │ │ │ ├── msccl_setup.h │ │ │ ├── msccl_status.h │ │ │ └── msccl_struct.h │ │ ├── mscclpp/ │ │ │ └── mscclpp_nccl.h │ │ ├── nccl_common.h │ │ ├── nccl_device/ │ │ │ ├── README.md │ │ │ ├── comm.h │ │ │ ├── coop.h │ │ │ ├── core.h │ │ │ ├── impl/ │ │ │ │ ├── comm__funcs.h │ │ │ │ ├── comm__types.h │ │ │ │ ├── core__funcs.h │ │ │ │ ├── core__types.h │ │ │ │ ├── ll_a2a__funcs.h │ │ │ │ ├── ll_a2a__types.h │ │ │ │ ├── mem_barrier__funcs.h │ │ │ │ ├── mem_barrier__types.h │ │ │ │ ├── ptr__funcs.h │ │ │ │ └── ptr__types.h │ │ │ ├── ll_a2a.h │ │ │ ├── mem_barrier.h │ │ │ ├── ptr.h │ │ │ └── utility.h │ │ ├── nccl_device.h │ │ ├── net.h │ │ ├── net_device.h │ │ ├── npkit/ │ │ │ ├── npkit.h │ │ │ ├── npkit_event.h │ │ │ └── npkit_struct.h │ │ ├── nvmlwrap.h │ │ ├── nvtx.h │ │ ├── nvtx3/ │ │ │ ├── nvToolsExt.h │ │ │ ├── nvToolsExtCounters.h │ │ │ ├── nvToolsExtCuda.h │ │ │ ├── nvToolsExtCudaRt.h │ │ │ ├── nvToolsExtMem.h │ │ │ ├── nvToolsExtMemCudaRt.h │ │ │ ├── nvToolsExtOpenCL.h │ │ │ ├── nvToolsExtPayload.h │ │ │ ├── nvToolsExtPayloadHelper.h │ │ │ ├── nvToolsExtSemanticsCounters.h │ │ │ ├── nvToolsExtSemanticsScope.h │ │ │ ├── nvToolsExtSync.h │ │ │ ├── nvtx3.hpp │ │ │ └── nvtxDetail/ │ │ │ ├── nvtxExtHelperMacros.h │ │ │ ├── nvtxExtImpl.h │ │ │ ├── nvtxExtImplCounters_v1.h │ │ │ ├── nvtxExtImplMemCudaRt_v1.h │ │ │ ├── nvtxExtImplMem_v1.h │ │ │ ├── nvtxExtImplPayload_v1.h │ │ │ ├── nvtxExtInit.h │ │ │ ├── nvtxExtPayloadHelperInternal.h │ │ │ ├── nvtxExtPayloadTypeInfo.h │ │ │ ├── nvtxExtTypes.h │ │ │ ├── nvtxImpl.h │ │ │ ├── nvtxImplCore.h │ │ │ ├── nvtxImplCudaRt_v3.h │ │ │ ├── nvtxImplCuda_v3.h │ │ │ ├── nvtxImplOpenCL_v3.h │ │ │ ├── nvtxImplSync_v3.h │ │ │ ├── nvtxInit.h │ │ │ ├── nvtxInitDecls.h │ │ │ ├── nvtxInitDefs.h │ │ │ ├── nvtxLinkOnce.h │ │ │ └── nvtxTypes.h │ │ ├── nvtx_payload_schemas.h │ │ ├── nvtx_stub.h │ │ ├── p2p.h │ │ ├── param.h │ │ ├── plugin/ │ │ │ ├── nccl_net.h │ │ │ ├── nccl_profiler.h │ │ │ ├── nccl_tuner.h │ │ │ ├── net/ │ │ │ │ ├── net_v10.h │ │ │ │ ├── net_v11.h │ │ │ │ ├── net_v6.h │ │ │ │ ├── net_v7.h │ │ │ │ ├── net_v8.h │ │ │ │ └── net_v9.h │ │ │ ├── plugin.h │ │ │ ├── profiler/ │ │ │ │ ├── net_ib.h │ │ │ │ ├── net_ib_v1.h │ │ │ │ ├── net_socket.h │ │ │ │ ├── net_socket_v1.h │ │ │ │ ├── profiler_v1.h │ │ │ │ ├── profiler_v2.h │ │ │ │ ├── profiler_v3.h │ │ │ │ ├── profiler_v4.h │ │ │ │ └── profiler_v5.h │ │ │ └── tuner/ │ │ │ ├── tuner_v2.h │ │ │ ├── tuner_v3.h │ │ │ ├── tuner_v4.h │ │ │ └── tuner_v5.h │ │ ├── profiler.h │ │ ├── proxy.h │ │ ├── proxy_trace/ │ │ │ └── proxy_trace.h │ │ ├── ras.h │ │ ├── rccl_common.h │ │ ├── rccl_float8.h │ │ ├── rccl_vars.h │ │ ├── recorder.h │ │ ├── register.h │ │ ├── register_inline.h │ │ ├── rocm_smi_wrap.h │ │ ├── rocmwrap.h │ │ ├── roctx.h │ │ ├── scheduler.h │ │ ├── shm.h │ │ ├── shmutils.h │ │ ├── signals.h │ │ ├── socket.h │ │ ├── strongstream.h │ │ ├── sym_kernels.h │ │ ├── timer.h │ │ ├── transport.h │ │ ├── trees.h │ │ ├── tuner.h │ │ └── utils.h │ ├── init.cc │ ├── init_nvtx.cc │ ├── misc/ │ │ ├── CMakeLists.txt │ │ ├── alt_rsmi.cc │ │ ├── amdsmi_wrap.cc │ │ ├── api_trace.c │ │ ├── api_trace.cc │ │ ├── archinfo.cc │ │ ├── argcheck.cc │ │ ├── cudawrap.cc │ │ ├── gdrwrap.cc │ │ ├── ibvsymbols.cc │ │ ├── ibvwrap.cc │ │ ├── ionicdvsymbols.cc │ │ ├── ionicdvwrap.cc │ │ ├── ipcsocket.cc │ │ ├── latency_profiler/ │ │ │ ├── CollTrace.cc │ │ │ ├── CollTraceEvent.cc │ │ │ ├── CollTraceFunc.cc │ │ │ ├── CollTraceUtils.cc │ │ │ └── MIT-LICENSE.txt │ │ ├── mlx5dvsymbols.cc │ │ ├── mlx5dvwrap.cc │ │ ├── msccl/ │ │ │ ├── msccl_lifecycle.cc │ │ │ ├── msccl_parser.cc │ │ │ ├── msccl_setup.cc │ │ │ └── msccl_status.cc │ │ ├── mscclpp/ │ │ │ ├── mscclpp_nccl.cc │ │ │ └── mscclpp_nccl_syms.txt │ │ ├── npkit.cc │ │ ├── nvmlwrap.cc │ │ ├── nvmlwrap_stub.cc │ │ ├── param.cc │ │ ├── proxy_trace/ │ │ │ └── proxy_trace.cc │ │ ├── recorder.cc │ │ ├── rocm_smi_wrap.cc │ │ ├── rocmwrap.cc │ │ ├── roctx.cc │ │ ├── shmutils.cc │ │ ├── signals.cc │ │ ├── socket.cc │ │ ├── strongstream.cc │ │ └── utils.cc │ ├── mnnvl.cc │ ├── msccl.cc │ ├── nccl.h.in │ ├── nccl.pc.in │ ├── nccl_device/ │ │ ├── CMakeLists.txt │ │ ├── core.cc │ │ ├── ll_a2a.cc │ │ └── mem_barrier.cc │ ├── plugin/ │ │ ├── CMakeLists.txt │ │ ├── net/ │ │ │ ├── CMakeLists.txt │ │ │ ├── net_v10.cc │ │ │ ├── net_v11.cc │ │ │ ├── net_v6.cc │ │ │ ├── net_v7.cc │ │ │ ├── net_v8.cc │ │ │ └── net_v9.cc │ │ ├── net.cc │ │ ├── plugin_open.cc │ │ ├── profiler/ │ │ │ ├── CMakeLists.txt │ │ │ ├── profiler_v1.cc │ │ │ ├── profiler_v2.cc │ │ │ ├── profiler_v3.cc │ │ │ ├── profiler_v4.cc │ │ │ └── profiler_v5.cc │ │ ├── profiler.cc │ │ ├── tuner/ │ │ │ ├── CMakeLists.txt │ │ │ ├── tuner_v2.cc │ │ │ ├── tuner_v3.cc │ │ │ ├── tuner_v4.cc │ │ │ └── tuner_v5.cc │ │ └── tuner.cc │ ├── proxy.cc │ ├── ras/ │ │ ├── CMakeLists.txt │ │ ├── client.cc │ │ ├── client_support.cc │ │ ├── collectives.cc │ │ ├── peers.cc │ │ ├── ras.cc │ │ ├── ras_internal.h │ │ └── rasnet.cc │ ├── rccl_wrap.cc │ ├── register/ │ │ ├── CMakeLists.txt │ │ ├── coll_reg.cc │ │ ├── register.cc │ │ └── sendrecv_reg.cc │ ├── scheduler/ │ │ ├── CMakeLists.txt │ │ └── symmetric_sched.cc │ ├── sym_kernels.cc │ ├── transport/ │ │ ├── CMakeLists.txt │ │ ├── coll_net.cc │ │ ├── generic.cc │ │ ├── net.cc │ │ ├── net_ib.cc │ │ ├── net_socket.cc │ │ ├── nvls.cc │ │ ├── p2p.cc │ │ ├── profiler.cc │ │ └── shm.cc │ └── transport.cc ├── test/ │ ├── AllGatherTests.cpp │ ├── AllReduceTests.cpp │ ├── AllToAllTests.cpp │ ├── AllToAllVTests.cpp │ ├── AllocTests.cpp │ ├── AltRsmiTests.cpp │ ├── ArgCheckTests.cpp │ ├── BitOpsTests.cpp │ ├── BroadcastTests.cpp │ ├── CMakeLists.txt │ ├── CommTests.cpp │ ├── EnqueueTests.cpp │ ├── GatherTests.cpp │ ├── GroupCallTests.cpp │ ├── IpcsocketTests.cpp │ ├── NetSocketTests.cpp │ ├── NonBlockingTests.cpp │ ├── ParamTests.cpp │ ├── ParamTestsConfFile.txt │ ├── ProxyTests.cpp │ ├── README.md │ ├── RcclWrapTests.cpp │ ├── ReduceScatterTests.cpp │ ├── ReduceTests.cpp │ ├── RegisterTests.cpp │ ├── ScatterTests.cpp │ ├── SendRecvTests.cpp │ ├── StandaloneTests.cpp │ ├── TransportTests.cpp │ ├── _RecorderTests.cpp │ ├── common/ │ │ ├── CallCollectiveForked.cpp │ │ ├── CallCollectiveForked.hpp │ │ ├── CollectiveArgs.cpp │ │ ├── CollectiveArgs.hpp │ │ ├── DeviceBufferHelpers.hpp │ │ ├── EnvVars.cpp │ │ ├── EnvVars.hpp │ │ ├── ErrCode.hpp │ │ ├── MPIEnvironment.cpp │ │ ├── MPIEnvironment.hpp │ │ ├── MPIHelpers.cpp │ │ ├── MPIHelpers.hpp │ │ ├── MPIStandaloneTest.hpp │ │ ├── MPITestBase.hpp │ │ ├── MPITestCore.cpp │ │ ├── MPITestCore.hpp │ │ ├── MPITestRunner.md │ │ ├── PrepDataFuncs.cpp │ │ ├── PrepDataFuncs.hpp │ │ ├── ProcessIsolatedTestRunner.cpp │ │ ├── ProcessIsolatedTestRunner.hpp │ │ ├── ProcessIsolatedTestRunner.md │ │ ├── PtrUnion.cpp │ │ ├── PtrUnion.hpp │ │ ├── RcclMockFuncs.hpp │ │ ├── ResourceGuards.hpp │ │ ├── StandaloneUtils.cpp │ │ ├── StandaloneUtils.hpp │ │ ├── TestBed.cpp │ │ ├── TestBed.hpp │ │ ├── TestBedChild.cpp │ │ ├── TestBedChild.hpp │ │ ├── TestChecks.cpp │ │ ├── TestChecks.hpp │ │ ├── TransportUtils.hpp │ │ ├── main.cpp │ │ ├── main_fixtures.cpp │ │ └── main_mpi.cpp │ ├── ext-plugins/ │ │ ├── .gitignore │ │ ├── README.md │ │ ├── assets/ │ │ │ └── csv_confs/ │ │ │ ├── incorrect_values_config.conf │ │ │ ├── multinode_config.conf │ │ │ ├── no_matching_config.conf │ │ │ ├── singlenode_config.conf │ │ │ ├── unsupported_algo_proto_config.conf │ │ │ ├── valid_config_with_wildcards.conf │ │ │ └── valid_config_without_wildcards.conf │ │ ├── pytest.ini │ │ ├── requirements.txt │ │ └── tests/ │ │ ├── conftest.py │ │ ├── ext-profiler/ │ │ │ ├── test_allgather.py │ │ │ ├── test_allreduce.py │ │ │ ├── test_alltoall.py │ │ │ ├── test_broadcast.py │ │ │ ├── test_reduce.py │ │ │ ├── test_reducescatter.py │ │ │ └── test_sendrecv.py │ │ └── ext-tuner/ │ │ ├── test_allgather.py │ │ ├── test_allreduce.py │ │ ├── test_broadcast.py │ │ ├── test_reduce.py │ │ └── test_reducescatter.py │ ├── graph/ │ │ └── XmlTests.cpp │ ├── latency_profiler/ │ │ └── LatencyProfilerUnitTest.cpp │ ├── proxy_trace/ │ │ └── ProxyTraceUnitTests.cpp │ └── transport/ │ ├── NetIbMPITests.cpp │ ├── NetMPITests.cpp │ ├── P2pMPITests.cpp │ ├── ShmMPITests.cpp │ ├── TransportMPIBase.cpp │ └── TransportMPIBase.hpp ├── toolchain-linux.cmake └── tools/ ├── EmptyKernelTest/ │ ├── EmptyKernelTest.cpp │ ├── Makefile │ └── run.sh ├── GraphBench/ │ ├── GraphBench.cpp │ └── Makefile ├── HelloRccl/ │ ├── HelloRccl.cpp │ ├── HelloRccl.hpp │ ├── Makefile │ └── runTest.sh ├── JitterBench/ │ ├── Common.hpp │ ├── Compatibility.hpp │ ├── GetClosestNumaNode.hpp │ ├── JitterBench.cpp │ ├── Makefile │ ├── Timeline.hpp │ └── runSweep.sh ├── RcclReplayer/ │ ├── Makefile │ ├── README.md │ ├── rcclReplayer.cpp │ ├── rcclReplayer.hpp │ └── replay_log_converter.py ├── TopoVisual/ │ ├── README.md │ ├── extract_topo.awk │ └── topo_visual.sh ├── TransferBench/ │ └── README.md ├── ib-test/ │ ├── Makefile │ ├── ib_test.cpp │ ├── include/ │ │ └── nccl.h │ └── utils.cpp ├── msccl-algorithms/ │ ├── allgather_16n_direct_0_3m_ll128.xml │ ├── allgather_16n_direct_0_3m_ll128_op.xml │ ├── allgather_32n_direct_0_6m_ll128.xml │ ├── allgather_32n_direct_0_6m_ll128_op.xml │ ├── allreduce-allpairs-8n-ll-32tb-op.xml │ ├── allreduce-allpairs-8n-ll-32tb.xml │ ├── allreduce-allpairs-8n-ll-64tb-op.xml │ ├── allreduce-allpairs-8n-ll-64tb.xml │ ├── allreduce-allpairs-8n-simple-op.xml │ ├── allreduce-allpairs-8n-simple.xml │ ├── alltoall-8n-0-9kb.xml │ ├── alltoall-8n-190kb-512kb.xml │ ├── alltoall-8n-512kb-7mb.xml │ ├── alltoall-8n-7mb-43mb.xml │ └── alltoall-8n-9kb-190kb.xml ├── msccl-unit-test-algorithms/ │ ├── all-reduce-ring-ll.xml │ ├── all-reduce-ring-ll128.xml │ └── all-reduce-ring-simple.xml ├── p2p-latency-test/ │ ├── Makefile │ ├── README.md │ ├── build_and_run.sh │ ├── ll_latency_test.cpp │ ├── ll_latency_test.cu │ └── p2p_latency_test.cpp ├── rccl-prim-test/ │ ├── Makefile │ ├── copy_kernel.h │ └── rccl_prim_test.cpp ├── scripts/ │ ├── exclude_static_list.txt │ ├── npkit_trace_analysis.py │ ├── npkit_trace_generator.py │ ├── pytorch-all-reduce/ │ │ ├── README.md │ │ ├── all_reduce.py │ │ └── trace_runs.sh │ ├── pytorch-log-parser.py │ ├── rcclDiagnostics.py │ ├── rccl_bw_test.py │ ├── rocprof-log-parser.py │ ├── test_runner/ │ │ ├── README.md │ │ ├── configs/ │ │ │ ├── mi300x_mellanox_ib.json │ │ │ ├── rccl_perf_tests.json │ │ │ └── test_config_sample.json │ │ ├── lib/ │ │ │ ├── __init__.py │ │ │ ├── test_config.py │ │ │ ├── test_executor.py │ │ │ └── test_parser.py │ │ └── test_runner.py │ ├── topo_val.sh │ └── ucx_ompi_rccl_rccltests_TB_script.sh ├── time-trace/ │ ├── rccl-TimeTrace.sh │ └── time_trace_generator.py └── topo_expl/ ├── Makefile ├── README.md ├── include/ │ ├── device_table.h │ ├── model.h │ ├── nccl.h │ └── utils.h ├── model.cpp ├── models/ │ ├── topo_16p1h.xml │ ├── topo_16p1h_vm.xml │ ├── topo_16p_gio-1s-1rp-cascade.xml │ ├── topo_16p_gio-3s-1rp-split-flat.xml │ ├── topo_3p_pcie.xml │ ├── topo_3p_pcie_1.xml │ ├── topo_4p1h.xml │ ├── topo_4p1h_1.xml │ ├── topo_4p2h.xml │ ├── topo_4p2h_1.xml │ ├── topo_4p2h_2nic.xml │ ├── topo_4p3l.xml │ ├── topo_4p3l_2h.xml │ ├── topo_4p3l_ia.xml │ ├── topo_4p3l_n2.xml │ ├── topo_4p3l_n2_1.xml │ ├── topo_4p3l_n4.xml │ ├── topo_4p4h.xml │ ├── topo_4p_942.xml │ ├── topo_8p1h.xml │ ├── topo_8p1h_1.xml │ ├── topo_8p1h_2.xml │ ├── topo_8p1h_3.xml │ ├── topo_8p1h_4.xml │ ├── topo_8p1h_5.xml │ ├── topo_8p1h_n1.xml │ ├── topo_8p6l.xml │ ├── topo_8p6l_1nic.xml │ ├── topo_8p6l_2nic.xml │ ├── topo_8p6l_3nic.xml │ ├── topo_8p6l_4nic.xml │ ├── topo_8p6l_5nic.xml │ ├── topo_8p6l_6nic.xml │ ├── topo_8p_4nics.xml │ ├── topo_8p_90a.xml │ ├── topo_8p_90a_1.xml │ ├── topo_8p_942.xml │ ├── topo_8p_942vm.xml │ ├── topo_8p_950.xml │ ├── topo_8p_pcie.xml │ ├── topo_8p_pcie_1.xml │ ├── topo_8p_pcie_2nic.xml │ ├── topo_8p_rome.xml │ ├── topo_8p_rome_4n_1.xml │ ├── topo_8p_rome_4n_2.xml │ ├── topo_8p_rome_4nics.xml │ ├── topo_8p_rome_n2.xml │ ├── topo_8p_rome_n2_1.xml │ ├── topo_8p_rome_n2_2.xml │ ├── topo_8p_rome_n4.xml │ ├── topo_8p_rome_n4_1.xml │ ├── topo_8p_rome_pcie.xml │ ├── topo_8p_rome_vm1.xml │ ├── topo_8p_ts1.xml │ ├── topo_8p_ts1_1.xml │ ├── topo_8p_ts1_n4.xml │ ├── topo_8p_ts1_n4_1.xml │ ├── topo_8p_ts1_n4_2.xml │ ├── topo_collnet_n1.xml │ └── topo_collnet_n4.xml ├── topo_expl.cpp └── utils.cpp