gitextract_zu2ke5gg/ ├── .clang-format ├── .gitattributes ├── .github/ │ ├── tag-issue.md │ └── workflows/ │ └── version_checker.yml ├── .gitignore ├── .gitlab-ci.yml ├── .gitmodules ├── ATTRIBUTIONS.md ├── CMakeLists.txt ├── INSTALL.md ├── LICENSE ├── README.md ├── _config.yml ├── benchmarks/ │ ├── CMakeLists.txt │ ├── allgather-volume.cpp │ ├── bcast-volume.cpp │ ├── blocking_vs_non_blocking.cpp │ ├── dgemm_perf_model.cpp │ ├── gpu_gemm_cublas.cpp │ ├── gpu_gemm_libsci_acc.cpp │ ├── reduce-scatter.cpp │ ├── run_ubench.sh │ ├── scalapack_transformer.cpp │ ├── sendrecv.cpp │ ├── transpose.cpp │ └── ubench-allgather.cpp ├── bors.toml ├── ci/ │ ├── baseimage.cuda.Dockerfile │ ├── build.Dockerfile │ ├── cscs.yml │ └── mps-wrapper.sh ├── cmake/ │ ├── FindARMPL.cmake │ ├── FindATLAS.cmake │ ├── FindBLIS.cmake │ ├── FindBlas.cmake │ ├── FindCRAY_LIBSCI.cmake │ ├── FindFLEXIBLAS.cmake │ ├── FindGenericBLAS.cmake │ ├── FindMKL.cmake │ ├── FindNCCL.cmake │ ├── FindNVPL.cmake │ ├── FindOPENBLAS.cmake │ ├── FindSCALAPACK.cmake │ ├── GitSubmodule.cmake │ ├── adjust_mpiexec_flags.cmake │ ├── build_type.cmake │ ├── cosma.pc.in │ ├── cosmaConfig.cmake.in │ └── find_cuda_version.cmake ├── docker/ │ ├── asan/ │ │ ├── build-env.Dockerfile │ │ └── deploy.Dockerfile │ ├── cpu-release/ │ │ ├── build-env.Dockerfile │ │ └── deploy.Dockerfile │ └── gpu/ │ ├── build-env.Dockerfile │ └── deploy.Dockerfile ├── libs/ │ └── gtest_mpi/ │ ├── CMakeLists.txt │ ├── LICENSE │ ├── README.md │ ├── external/ │ │ └── gtest/ │ │ ├── CMakeLists.txt │ │ ├── include/ │ │ │ └── gtest/ │ │ │ └── gtest.h │ │ └── src/ │ │ └── gtest-all.cpp │ └── include/ │ └── gtest_mpi/ │ ├── gtest_mpi.hpp │ └── gtest_mpi_internal.hpp ├── miniapp/ │ ├── CMakeLists.txt │ ├── cosma_miniapp.cpp │ ├── cosma_statistics.cpp │ ├── layout_miniapp.cpp │ └── pxgemm_miniapp.cpp ├── scripts/ │ ├── build.sh │ ├── daint-mc_env.sh │ ├── install_dependencies.py │ ├── piz_daint_cpu.sh │ ├── piz_daint_gpu.sh │ ├── piz_daint_gpu_aware_mpi.sh │ ├── run_gpu.sh │ ├── schedule_miniapp_on_daint_cpu.sh │ ├── schedule_miniapp_on_daint_gpu.sh │ └── schedule_tests_on_daint.sh ├── spack/ │ └── packages/ │ └── costa/ │ └── package.py ├── spack_repo/ │ └── cosma/ │ ├── packages/ │ │ ├── cosma/ │ │ │ ├── fj-ssl2.patch │ │ │ └── package.py │ │ └── tiled-mm/ │ │ └── package.py │ └── repo.yaml ├── src/ │ └── cosma/ │ ├── CMakeLists.txt │ ├── aligned_allocator.hpp │ ├── blacs.hpp │ ├── blas.cpp │ ├── blas.hpp │ ├── buffer.cpp │ ├── buffer.hpp │ ├── cinterface.cpp │ ├── cinterface.hpp │ ├── communicator.cpp │ ├── communicator.hpp │ ├── context.cpp │ ├── context.hpp │ ├── cosma_pxgemm.cpp │ ├── cosma_pxgemm.hpp │ ├── environment_variables.cpp │ ├── environment_variables.hpp │ ├── gpu/ │ │ ├── gpu_aware_mpi_utils.cpp │ │ ├── gpu_aware_mpi_utils.hpp │ │ ├── gpu_runtime_api.hpp │ │ ├── nccl_mapper.hpp │ │ ├── nccl_utils.cpp │ │ ├── nccl_utils.hpp │ │ └── utils.hpp │ ├── interpose.h │ ├── interval.cpp │ ├── interval.hpp │ ├── layout.cpp │ ├── layout.hpp │ ├── local_multiply.cpp │ ├── local_multiply.hpp │ ├── mapper.cpp │ ├── mapper.hpp │ ├── math_utils.cpp │ ├── math_utils.hpp │ ├── matrix.cpp │ ├── matrix.hpp │ ├── memory_pool.cpp │ ├── memory_pool.hpp │ ├── mpi_mapper.hpp │ ├── multiply.cpp │ ├── multiply.hpp │ ├── one_sided_communicator.cpp │ ├── one_sided_communicator.hpp │ ├── pinned_buffers.cpp │ ├── pinned_buffers.hpp │ ├── prefixed_pxgemm.cpp │ ├── prefixed_pxgemm.h │ ├── profiler.hpp │ ├── pxgemm.cpp │ ├── pxgemm.h │ ├── pxgemm_params.hpp │ ├── random_generator.hpp │ ├── scalapack.cpp │ ├── scalapack.hpp │ ├── statistics.hpp │ ├── strategy.cpp │ ├── strategy.hpp │ ├── timer.hpp │ ├── two_sided_communicator.cpp │ └── two_sided_communicator.hpp ├── tests/ │ ├── CMakeLists.txt │ ├── main_gtest.cpp │ ├── main_gtest_mpi.cpp │ ├── mapper.cpp │ ├── multiply.cpp │ ├── multiply_using_layout.cpp │ ├── pdgemm.cpp │ └── scalar_matmul.cpp └── utils/ ├── cosma_utils.hpp ├── parse_strategy.hpp └── pxgemm_utils.hpp