gitextract_r74v3ht2/ ├── .dockerignore ├── .github/ │ ├── PULL_REQUEST_TEMPLATE.md │ └── workflows/ │ ├── build-neuron-ci.yaml │ ├── build-nvidia-ci.yaml │ ├── ci.yaml │ ├── update-go-dependencies.yaml │ ├── update-image-tags.yaml │ ├── update-neuron-dependencies.yaml │ └── update-nvidia-dependencies.yaml ├── .gitignore ├── .vscode/ │ └── settings.json ├── CODE_OF_CONDUCT.md ├── CONTRIBUTING.md ├── Config ├── Dockerfile ├── LICENSE ├── Makefile ├── NOTICE ├── README.md ├── bmg.json ├── cmd/ │ ├── kubetest2-eksapi/ │ │ └── main.go │ ├── kubetest2-eksapi-janitor/ │ │ └── main.go │ ├── kubetest2-eksctl/ │ │ └── main.go │ ├── kubetest2-tester-ginkgo-v1/ │ │ └── main.go │ └── kubetest2-tester-multi/ │ └── main.go ├── external/ │ └── tools.go ├── go.mod ├── go.sum ├── hack/ │ ├── download-kubernetes-binaries.sh │ ├── free-disk-space.sh │ ├── update-go-dependencies.sh │ ├── update-image-tags.sh │ ├── update-neuron-dependencies.sh │ └── update-nvidia-dependencies.sh ├── internal/ │ ├── awssdk/ │ │ └── config.go │ ├── deployers/ │ │ ├── eksapi/ │ │ │ ├── addons.go │ │ │ ├── ami_resolver.go │ │ │ ├── ami_resolver_test.go │ │ │ ├── auth_map_role.go │ │ │ ├── auth_map_role_test.go │ │ │ ├── aws.go │ │ │ ├── cluster.go │ │ │ ├── common.go │ │ │ ├── common_test.go │ │ │ ├── deployer.go │ │ │ ├── infra.go │ │ │ ├── janitor.go │ │ │ ├── k8s.go │ │ │ ├── kubeconfig.go │ │ │ ├── logs.go │ │ │ ├── logs_ssm_doc.json │ │ │ ├── metrics.go │ │ │ ├── node.go │ │ │ ├── static_cluster.go │ │ │ ├── templates/ │ │ │ │ ├── auth_map_role.yaml.template │ │ │ │ ├── busybox_deployment.yaml.template │ │ │ │ ├── cloudwatch-infra.yaml.template │ │ │ │ ├── cloudwatch_agent_infra.yaml │ │ │ │ ├── infra.yaml │ │ │ │ ├── nvidia_static_cluster_nodepool.yaml.template │ │ │ │ ├── templates.go │ │ │ │ ├── templates_test.go │ │ │ │ ├── unmanaged-nodegroup.yaml.template │ │ │ │ ├── userdata_bootstrap.sh.mimepart.template │ │ │ │ ├── userdata_bottlerocket.toml.template │ │ │ │ └── userdata_nodeadm.yaml.mimepart.template │ │ │ ├── userdata.go │ │ │ ├── userdata_test.go │ │ │ ├── vpccni.go │ │ │ └── vpccni_test.go │ │ └── eksctl/ │ │ ├── build.go │ │ ├── cluster_config.go │ │ ├── deployer.go │ │ ├── down.go │ │ └── up.go │ ├── e2e/ │ │ ├── client.go │ │ ├── conditions.go │ │ ├── doc.go │ │ ├── ec2.go │ │ ├── health.go │ │ ├── logs.go │ │ ├── mpijobs/ │ │ │ ├── conditions.go │ │ │ ├── conditions_test.go │ │ │ └── types.go │ │ └── resources.go │ ├── metrics/ │ │ ├── cloudwatch.go │ │ ├── noop.go │ │ └── registry.go │ ├── testers/ │ │ ├── ginkgov1/ │ │ │ ├── LICENSE.original │ │ │ ├── README.md │ │ │ ├── ginkgo.go │ │ │ ├── kubectl/ │ │ │ │ └── kubectl.go │ │ │ └── package.go │ │ └── multi/ │ │ └── cmd.go │ ├── util/ │ │ ├── cloudformation.go │ │ ├── exec.go │ │ ├── http.go │ │ ├── http_test.go │ │ ├── lang.go │ │ ├── path.go │ │ └── version.go │ └── version.go └── test/ ├── cases/ │ ├── disruptive/ │ │ ├── graceful_reboot_test.go │ │ ├── graceful_shutdown_test.go │ │ └── main_test.go │ ├── dra/ │ │ ├── dra_example_driver_test.go │ │ └── main_test.go │ ├── efa/ │ │ ├── commons.go │ │ ├── main_test.go │ │ ├── pingpong_test.go │ │ └── unit_test.go │ ├── fips/ │ │ ├── README.md │ │ ├── fips_test.go │ │ ├── main_test.go │ │ └── manifests/ │ │ ├── registry-fips.yaml │ │ ├── registry-nonfips.yaml │ │ └── test-pods.yaml │ ├── netpol/ │ │ ├── main_test.go │ │ └── np_test.go │ ├── neuron/ │ │ ├── main_test.go │ │ ├── manifests/ │ │ │ ├── multi-node-test-neuron.yaml │ │ │ └── single-node-test-neuronx.yaml │ │ └── neuron_test.go │ ├── neuron-dra/ │ │ ├── main_test.go │ │ ├── neuron_dra_test.go │ │ ├── rcts/ │ │ │ └── trn1/ │ │ │ ├── rct-2-efas-4-neurons-wrong-match.yaml │ │ │ └── rct-all-efas-all-neurons.yaml │ │ ├── templates/ │ │ │ └── nccom-test-mpijob.yaml.tmpl │ │ ├── testcases/ │ │ │ └── trn1/ │ │ │ ├── 2-efas-4-neurons-wrong-match.yaml │ │ │ └── all-efas-all-neurons.yaml │ │ └── topology.go │ ├── neuron-inference/ │ │ ├── bert_inference_test.go │ │ ├── main_test.go │ │ ├── manifests/ │ │ │ └── neuron-bert-inference.yaml │ │ └── vars.go │ ├── neuron-training/ │ │ ├── bert_training_test.go │ │ ├── main_test.go │ │ ├── manifests/ │ │ │ ├── bert-training.yaml │ │ │ └── training-comm-service.yaml │ │ └── vars.go │ ├── nvidia/ │ │ ├── capabilities_test.go │ │ ├── containerd_test.go │ │ ├── main_test.go │ │ ├── manifests/ │ │ │ ├── daemonset-containerd-check.yaml │ │ │ ├── job-hpc-benchmarks.yaml │ │ │ ├── job-unit-test-single-node.yaml │ │ │ ├── mpi-job-nccl-test-multi-node.yaml │ │ │ ├── mpi-job-pytorch-training-single-node.yaml │ │ │ └── nvidia-driver-capabilities-check.yaml │ │ ├── mpi_test.go │ │ └── unit_test.go │ ├── nvidia-dra/ │ │ ├── main_test.go │ │ ├── nvidia_dra_test.go │ │ ├── rcts/ │ │ │ └── p5/ │ │ │ ├── rct-all-efas.yaml │ │ │ ├── rct-all-gpus.yaml │ │ │ └── rct-five-efas-one-gpu.yaml │ │ ├── templates/ │ │ │ └── nccl-test-mpijob.yaml.tmpl │ │ ├── testcases/ │ │ │ └── p5/ │ │ │ ├── all-efas-all-gpus.yaml │ │ │ └── five-efas-one-gpu-negative-test.yaml │ │ └── topology.go │ ├── nvidia-inference/ │ │ ├── bert_inference_test.go │ │ ├── main_test.go │ │ └── manifests/ │ │ └── bert-inference.yaml │ ├── nvidia-training/ │ │ ├── bert_training_test.go │ │ ├── main_test.go │ │ ├── manifests/ │ │ │ └── bert-training.yaml │ │ └── vars.go │ ├── quick/ │ │ ├── io_uring_test.go │ │ ├── limit_test.go │ │ ├── main_test.go │ │ ├── manifests/ │ │ │ └── ulimit.yaml │ │ └── node_topology_test.go │ └── workload/ │ ├── main_test.go │ └── workload_test.go ├── common/ │ ├── dra.go │ ├── dra_features.go │ ├── dra_types.go │ ├── flags.go │ └── resources.go ├── images/ │ ├── efa/ │ │ ├── Dockerfile │ │ └── scripts/ │ │ └── unit-test.sh │ ├── neuron/ │ │ ├── Dockerfile │ │ ├── hack/ │ │ │ └── install-test-resources.sh │ │ └── tests/ │ │ ├── singleNodeTest.sh │ │ ├── testNeuronMlp.py │ │ ├── testNeuronParallelState.py │ │ └── testNeuronSingleAllReduce.py │ ├── neuron-inference/ │ │ ├── Dockerfile │ │ └── infer.py │ ├── neuron-training/ │ │ ├── Dockerfile │ │ └── train.py │ ├── nvidia/ │ │ ├── Dockerfile │ │ └── gpu_unit_tests/ │ │ ├── README.md │ │ ├── bash_unit │ │ ├── tests/ │ │ │ ├── common.sh │ │ │ ├── test_basic.sh │ │ │ ├── test_sysinfo.sh │ │ │ └── test_sysinfo.sh.data/ │ │ │ ├── g5.48xlarge/ │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ └── nvidia_smi_topo.txt │ │ │ ├── g5.8xlarge/ │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ └── nvidia_smi_topo.txt │ │ │ ├── g5g.2xlarge/ │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ └── nvidia_smi_topo.txt │ │ │ ├── g6f.2xlarge/ │ │ │ │ ├── efa_count.txt │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ ├── nvidia_smi_topo.txt │ │ │ │ └── nvidia_vgpu_license_status.txt │ │ │ ├── g6f.4xlarge/ │ │ │ │ ├── efa_count.txt │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ ├── nvidia_smi_topo.txt │ │ │ │ └── nvidia_vgpu_license_status.txt │ │ │ ├── g6f.large/ │ │ │ │ ├── efa_count.txt │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ ├── nvidia_smi_topo.txt │ │ │ │ └── nvidia_vgpu_license_status.txt │ │ │ ├── g6f.xlarge/ │ │ │ │ ├── efa_count.txt │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ ├── nvidia_smi_topo.txt │ │ │ │ └── nvidia_vgpu_license_status.txt │ │ │ ├── p3.16xlarge/ │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ └── nvidia_smi_topo.txt │ │ │ ├── p3.2xlarge/ │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ └── nvidia_smi_topo.txt │ │ │ ├── p4d.24xlarge/ │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ └── nvidia_smi_topo.txt │ │ │ ├── p4de.24xlarge/ │ │ │ │ ├── gpu_count.txt │ │ │ │ ├── numa_topo.txt │ │ │ │ ├── nvidia_persistence_status.txt │ │ │ │ └── nvidia_smi_topo.txt │ │ │ └── p5.48xlarge/ │ │ │ ├── gpu_count.txt │ │ │ ├── numa_topo.txt │ │ │ ├── nvidia_persistence_status.txt │ │ │ └── nvidia_smi_topo.txt │ │ └── unit_test │ ├── nvidia-inference/ │ │ ├── Dockerfile │ │ ├── infer.py │ │ └── requirements.txt │ └── nvidia-training/ │ ├── Dockerfile │ ├── requirements.txt │ └── train.py └── manifests/ ├── assets/ │ ├── cloudwatch-agent.yaml │ ├── dcgm-exporter.yaml │ ├── dranet.yaml │ ├── efa-device-plugin.yaml │ ├── k8s-neuron-device-plugin-rbac.yml │ ├── k8s-neuron-device-plugin.yml │ ├── mpi-operator.yaml │ └── nvidia-device-plugin.yaml ├── raw.go └── rendered.go