gitextract_y9jvowoy/ ├── KoSBERT/ │ ├── Clustering.py │ ├── README.md │ ├── SemanticSearch.py │ ├── con_training_sts.py │ ├── output/ │ │ └── empty.txt │ ├── run_example.sh │ └── training_nli.py ├── KoSentenceT5/ │ ├── README.md │ ├── apex/ │ │ ├── RNN/ │ │ │ ├── README.md │ │ │ ├── RNNBackend.py │ │ │ ├── __init__.py │ │ │ ├── cells.py │ │ │ └── models.py │ │ ├── __init__.py │ │ ├── amp/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── __version__.py │ │ │ ├── _amp_state.py │ │ │ ├── _initialize.py │ │ │ ├── _process_optimizer.py │ │ │ ├── amp.py │ │ │ ├── compat.py │ │ │ ├── frontend.py │ │ │ ├── handle.py │ │ │ ├── lists/ │ │ │ │ ├── __init__.py │ │ │ │ ├── functional_overrides.py │ │ │ │ ├── tensor_overrides.py │ │ │ │ └── torch_overrides.py │ │ │ ├── opt.py │ │ │ ├── rnn_compat.py │ │ │ ├── scaler.py │ │ │ ├── utils.py │ │ │ └── wrap.py │ │ ├── contrib/ │ │ │ ├── __init__.py │ │ │ ├── bottleneck/ │ │ │ │ ├── __init__.py │ │ │ │ ├── bottleneck.py │ │ │ │ └── test.py │ │ │ ├── csrc/ │ │ │ │ ├── bottleneck/ │ │ │ │ │ └── bottleneck.cpp │ │ │ │ ├── fmha/ │ │ │ │ │ ├── fmha_api.cpp │ │ │ │ │ └── src/ │ │ │ │ │ ├── fmha/ │ │ │ │ │ │ ├── gemm.h │ │ │ │ │ │ ├── gmem_tile.h │ │ │ │ │ │ ├── kernel_traits.h │ │ │ │ │ │ ├── mask.h │ │ │ │ │ │ ├── smem_tile.h │ │ │ │ │ │ ├── softmax.h │ │ │ │ │ │ └── utils.h │ │ │ │ │ ├── fmha.h │ │ │ │ │ ├── fmha_dgrad_fp16_128_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_dgrad_fp16_256_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_dgrad_fp16_384_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_dgrad_fp16_512_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_dgrad_kernel_1xN_reload.h │ │ │ │ │ ├── fmha_dgrad_kernel_1xN_reload_nl.h │ │ │ │ │ ├── fmha_fprop_fp16_128_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_fprop_fp16_256_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_fprop_fp16_384_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_fprop_fp16_512_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_fprop_kernel_1xN.h │ │ │ │ │ ├── fmha_fprop_kernel_1xN_nl.h │ │ │ │ │ ├── fmha_fprop_kernel_1xN_reload_v.h │ │ │ │ │ ├── fmha_kernel.h │ │ │ │ │ ├── fmha_noloop_reduce.cu │ │ │ │ │ └── fmha_utils.h │ │ │ │ ├── groupbn/ │ │ │ │ │ ├── batch_norm.cu │ │ │ │ │ ├── batch_norm.h │ │ │ │ │ ├── batch_norm_add_relu.cu │ │ │ │ │ ├── batch_norm_add_relu.h │ │ │ │ │ ├── cuda_utils.h │ │ │ │ │ ├── interface.cpp │ │ │ │ │ ├── ipc.cu │ │ │ │ │ └── nhwc_batch_norm_kernel.h │ │ │ │ ├── layer_norm/ │ │ │ │ │ ├── ln_api.cpp │ │ │ │ │ ├── ln_bwd_semi_cuda_kernel.cu │ │ │ │ │ ├── ln_fwd_cuda_kernel.cu │ │ │ │ │ ├── ln_kernel_traits.h │ │ │ │ │ └── utils.cuh │ │ │ │ ├── multihead_attn/ │ │ │ │ │ ├── additive_masked_softmax_dropout.cpp │ │ │ │ │ ├── additive_masked_softmax_dropout_cuda.cu │ │ │ │ │ ├── dropout.h │ │ │ │ │ ├── encdec_multihead_attn.cpp │ │ │ │ │ ├── encdec_multihead_attn_cuda.cu │ │ │ │ │ ├── encdec_multihead_attn_norm_add.cpp │ │ │ │ │ ├── encdec_multihead_attn_norm_add_cuda.cu │ │ │ │ │ ├── layer_norm.h │ │ │ │ │ ├── masked_softmax_dropout.cpp │ │ │ │ │ ├── masked_softmax_dropout_cuda.cu │ │ │ │ │ ├── philox.h │ │ │ │ │ ├── self_multihead_attn.cpp │ │ │ │ │ ├── self_multihead_attn_bias.cpp │ │ │ │ │ ├── self_multihead_attn_bias_additive_mask.cpp │ │ │ │ │ ├── self_multihead_attn_bias_additive_mask_cuda.cu │ │ │ │ │ ├── self_multihead_attn_bias_cuda.cu │ │ │ │ │ ├── self_multihead_attn_cuda.cu │ │ │ │ │ ├── self_multihead_attn_norm_add.cpp │ │ │ │ │ ├── self_multihead_attn_norm_add_cuda.cu │ │ │ │ │ ├── softmax.h │ │ │ │ │ └── strided_batched_gemm.h │ │ │ │ ├── optimizers/ │ │ │ │ │ ├── fused_adam_cuda.cpp │ │ │ │ │ ├── fused_adam_cuda_kernel.cu │ │ │ │ │ ├── fused_lamb_cuda.cpp │ │ │ │ │ ├── fused_lamb_cuda_kernel.cu │ │ │ │ │ ├── multi_tensor_distopt_adam.cpp │ │ │ │ │ ├── multi_tensor_distopt_adam_kernel.cu │ │ │ │ │ ├── multi_tensor_distopt_lamb.cpp │ │ │ │ │ └── multi_tensor_distopt_lamb_kernel.cu │ │ │ │ ├── transducer/ │ │ │ │ │ ├── transducer_joint.cpp │ │ │ │ │ ├── transducer_joint_kernel.cu │ │ │ │ │ ├── transducer_loss.cpp │ │ │ │ │ └── transducer_loss_kernel.cu │ │ │ │ └── xentropy/ │ │ │ │ ├── interface.cpp │ │ │ │ └── xentropy_kernel.cu │ │ │ ├── examples/ │ │ │ │ └── multihead_attn/ │ │ │ │ ├── func_test_multihead_attn.py │ │ │ │ └── perf_test_multihead_attn.py │ │ │ ├── fmha/ │ │ │ │ ├── __init__.py │ │ │ │ └── fmha.py │ │ │ ├── groupbn/ │ │ │ │ ├── __init__.py │ │ │ │ └── batch_norm.py │ │ │ ├── layer_norm/ │ │ │ │ ├── __init__.py │ │ │ │ └── layer_norm.py │ │ │ ├── multihead_attn/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── encdec_multihead_attn.py │ │ │ │ ├── encdec_multihead_attn_func.py │ │ │ │ ├── fast_encdec_multihead_attn_func.py │ │ │ │ ├── fast_encdec_multihead_attn_norm_add_func.py │ │ │ │ ├── fast_self_multihead_attn_func.py │ │ │ │ ├── fast_self_multihead_attn_norm_add_func.py │ │ │ │ ├── mask_softmax_dropout_func.py │ │ │ │ ├── self_multihead_attn.py │ │ │ │ └── self_multihead_attn_func.py │ │ │ ├── optimizers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── distributed_fused_adam.py │ │ │ │ ├── distributed_fused_adam_v2.py │ │ │ │ ├── distributed_fused_adam_v3.py │ │ │ │ ├── distributed_fused_lamb.py │ │ │ │ ├── fp16_optimizer.py │ │ │ │ ├── fused_adam.py │ │ │ │ ├── fused_lamb.py │ │ │ │ └── fused_sgd.py │ │ │ ├── sparsity/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── asp.py │ │ │ │ ├── sparse_masklib.py │ │ │ │ └── test/ │ │ │ │ ├── checkpointing_test_part1.py │ │ │ │ ├── checkpointing_test_part2.py │ │ │ │ ├── checkpointing_test_reference.py │ │ │ │ └── toy_problem.py │ │ │ ├── test/ │ │ │ │ ├── fmha/ │ │ │ │ │ └── test_fmha.py │ │ │ │ ├── layer_norm/ │ │ │ │ │ └── test_fast_layer_norm.py │ │ │ │ ├── multihead_attn/ │ │ │ │ │ ├── test_encdec_multihead_attn.py │ │ │ │ │ ├── test_encdec_multihead_attn_norm_add.py │ │ │ │ │ ├── test_fast_self_multihead_attn_bias.py │ │ │ │ │ ├── test_mha_fused_softmax.py │ │ │ │ │ ├── test_self_multihead_attn.py │ │ │ │ │ └── test_self_multihead_attn_norm_add.py │ │ │ │ ├── test_label_smoothing.py │ │ │ │ └── transducer/ │ │ │ │ ├── test_transducer_joint.py │ │ │ │ ├── test_transducer_loss.py │ │ │ │ └── transducer_ref.py │ │ │ ├── transducer/ │ │ │ │ ├── __init__.py │ │ │ │ └── transducer.py │ │ │ └── xentropy/ │ │ │ ├── __init__.py │ │ │ └── softmax_xentropy.py │ │ ├── fp16_utils/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── fp16_optimizer.py │ │ │ ├── fp16util.py │ │ │ └── loss_scaler.py │ │ ├── mlp/ │ │ │ ├── __init__.py │ │ │ └── mlp.py │ │ ├── multi_tensor_apply/ │ │ │ ├── __init__.py │ │ │ └── multi_tensor_apply.py │ │ ├── normalization/ │ │ │ ├── __init__.py │ │ │ └── fused_layer_norm.py │ │ ├── optimizers/ │ │ │ ├── __init__.py │ │ │ ├── fused_adagrad.py │ │ │ ├── fused_adam.py │ │ │ ├── fused_lamb.py │ │ │ ├── fused_novograd.py │ │ │ └── fused_sgd.py │ │ ├── parallel/ │ │ │ ├── LARC.py │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── distributed.py │ │ │ ├── multiproc.py │ │ │ ├── optimized_sync_batchnorm.py │ │ │ ├── optimized_sync_batchnorm_kernel.py │ │ │ ├── sync_batchnorm.py │ │ │ └── sync_batchnorm_kernel.py │ │ ├── pyprof/ │ │ │ ├── FAQs.md │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── examples/ │ │ │ │ ├── .gitignore │ │ │ │ ├── apex/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── fused_adam.py │ │ │ │ │ ├── fused_layer_norm.py │ │ │ │ │ └── test.sh │ │ │ │ ├── custom_func_module/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── custom_function.py │ │ │ │ │ ├── custom_module.py │ │ │ │ │ └── test.sh │ │ │ │ ├── imagenet/ │ │ │ │ │ ├── imagenet.py │ │ │ │ │ └── test.sh │ │ │ │ ├── jit/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── jit_script_function.py │ │ │ │ │ ├── jit_script_method.py │ │ │ │ │ ├── jit_trace_function.py │ │ │ │ │ ├── jit_trace_method.py │ │ │ │ │ └── test.sh │ │ │ │ ├── lenet.py │ │ │ │ ├── operators.py │ │ │ │ ├── simple.py │ │ │ │ └── user_annotation/ │ │ │ │ ├── README.md │ │ │ │ ├── resnet.py │ │ │ │ └── test.sh │ │ │ ├── nvtx/ │ │ │ │ ├── __init__.py │ │ │ │ └── nvmarker.py │ │ │ ├── parse/ │ │ │ │ ├── __init__.py │ │ │ │ ├── __main__.py │ │ │ │ ├── db.py │ │ │ │ ├── kernel.py │ │ │ │ ├── nvvp.py │ │ │ │ └── parse.py │ │ │ └── prof/ │ │ │ ├── __init__.py │ │ │ ├── __main__.py │ │ │ ├── activation.py │ │ │ ├── base.py │ │ │ ├── blas.py │ │ │ ├── conv.py │ │ │ ├── convert.py │ │ │ ├── data.py │ │ │ ├── dropout.py │ │ │ ├── embedding.py │ │ │ ├── index_slice_join_mutate.py │ │ │ ├── linear.py │ │ │ ├── loss.py │ │ │ ├── misc.py │ │ │ ├── normalization.py │ │ │ ├── optim.py │ │ │ ├── output.py │ │ │ ├── pointwise.py │ │ │ ├── pooling.py │ │ │ ├── prof.py │ │ │ ├── randomSample.py │ │ │ ├── recurrentCell.py │ │ │ ├── reduction.py │ │ │ ├── softmax.py │ │ │ ├── usage.py │ │ │ └── utility.py │ │ └── reparameterization/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── reparameterization.py │ │ └── weight_norm.py │ ├── data/ │ │ └── dataloader.py │ ├── main.py │ ├── model/ │ │ ├── loss.py │ │ ├── setting.py │ │ ├── simcse/ │ │ │ ├── kost5.py │ │ │ └── processor.py │ │ └── utils.py │ └── run_example.sh ├── KoSimCSE/ │ ├── README.md │ ├── SemanticSearch.py │ ├── apex/ │ │ ├── RNN/ │ │ │ ├── README.md │ │ │ ├── RNNBackend.py │ │ │ ├── __init__.py │ │ │ ├── cells.py │ │ │ └── models.py │ │ ├── __init__.py │ │ ├── amp/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── __version__.py │ │ │ ├── _amp_state.py │ │ │ ├── _initialize.py │ │ │ ├── _process_optimizer.py │ │ │ ├── amp.py │ │ │ ├── compat.py │ │ │ ├── frontend.py │ │ │ ├── handle.py │ │ │ ├── lists/ │ │ │ │ ├── __init__.py │ │ │ │ ├── functional_overrides.py │ │ │ │ ├── tensor_overrides.py │ │ │ │ └── torch_overrides.py │ │ │ ├── opt.py │ │ │ ├── rnn_compat.py │ │ │ ├── scaler.py │ │ │ ├── utils.py │ │ │ └── wrap.py │ │ ├── contrib/ │ │ │ ├── __init__.py │ │ │ ├── bottleneck/ │ │ │ │ ├── __init__.py │ │ │ │ ├── bottleneck.py │ │ │ │ └── test.py │ │ │ ├── csrc/ │ │ │ │ ├── bottleneck/ │ │ │ │ │ └── bottleneck.cpp │ │ │ │ ├── fmha/ │ │ │ │ │ ├── fmha_api.cpp │ │ │ │ │ └── src/ │ │ │ │ │ ├── fmha/ │ │ │ │ │ │ ├── gemm.h │ │ │ │ │ │ ├── gmem_tile.h │ │ │ │ │ │ ├── kernel_traits.h │ │ │ │ │ │ ├── mask.h │ │ │ │ │ │ ├── smem_tile.h │ │ │ │ │ │ ├── softmax.h │ │ │ │ │ │ └── utils.h │ │ │ │ │ ├── fmha.h │ │ │ │ │ ├── fmha_dgrad_fp16_128_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_dgrad_fp16_256_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_dgrad_fp16_384_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_dgrad_fp16_512_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_dgrad_kernel_1xN_reload.h │ │ │ │ │ ├── fmha_dgrad_kernel_1xN_reload_nl.h │ │ │ │ │ ├── fmha_fprop_fp16_128_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_fprop_fp16_256_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_fprop_fp16_384_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_fprop_fp16_512_64_kernel.sm80.cu │ │ │ │ │ ├── fmha_fprop_kernel_1xN.h │ │ │ │ │ ├── fmha_fprop_kernel_1xN_nl.h │ │ │ │ │ ├── fmha_fprop_kernel_1xN_reload_v.h │ │ │ │ │ ├── fmha_kernel.h │ │ │ │ │ ├── fmha_noloop_reduce.cu │ │ │ │ │ └── fmha_utils.h │ │ │ │ ├── groupbn/ │ │ │ │ │ ├── batch_norm.cu │ │ │ │ │ ├── batch_norm.h │ │ │ │ │ ├── batch_norm_add_relu.cu │ │ │ │ │ ├── batch_norm_add_relu.h │ │ │ │ │ ├── cuda_utils.h │ │ │ │ │ ├── interface.cpp │ │ │ │ │ ├── ipc.cu │ │ │ │ │ └── nhwc_batch_norm_kernel.h │ │ │ │ ├── layer_norm/ │ │ │ │ │ ├── ln_api.cpp │ │ │ │ │ ├── ln_bwd_semi_cuda_kernel.cu │ │ │ │ │ ├── ln_fwd_cuda_kernel.cu │ │ │ │ │ ├── ln_kernel_traits.h │ │ │ │ │ └── utils.cuh │ │ │ │ ├── multihead_attn/ │ │ │ │ │ ├── additive_masked_softmax_dropout.cpp │ │ │ │ │ ├── additive_masked_softmax_dropout_cuda.cu │ │ │ │ │ ├── dropout.h │ │ │ │ │ ├── encdec_multihead_attn.cpp │ │ │ │ │ ├── encdec_multihead_attn_cuda.cu │ │ │ │ │ ├── encdec_multihead_attn_norm_add.cpp │ │ │ │ │ ├── encdec_multihead_attn_norm_add_cuda.cu │ │ │ │ │ ├── layer_norm.h │ │ │ │ │ ├── masked_softmax_dropout.cpp │ │ │ │ │ ├── masked_softmax_dropout_cuda.cu │ │ │ │ │ ├── philox.h │ │ │ │ │ ├── self_multihead_attn.cpp │ │ │ │ │ ├── self_multihead_attn_bias.cpp │ │ │ │ │ ├── self_multihead_attn_bias_additive_mask.cpp │ │ │ │ │ ├── self_multihead_attn_bias_additive_mask_cuda.cu │ │ │ │ │ ├── self_multihead_attn_bias_cuda.cu │ │ │ │ │ ├── self_multihead_attn_cuda.cu │ │ │ │ │ ├── self_multihead_attn_norm_add.cpp │ │ │ │ │ ├── self_multihead_attn_norm_add_cuda.cu │ │ │ │ │ ├── softmax.h │ │ │ │ │ └── strided_batched_gemm.h │ │ │ │ ├── optimizers/ │ │ │ │ │ ├── fused_adam_cuda.cpp │ │ │ │ │ ├── fused_adam_cuda_kernel.cu │ │ │ │ │ ├── fused_lamb_cuda.cpp │ │ │ │ │ ├── fused_lamb_cuda_kernel.cu │ │ │ │ │ ├── multi_tensor_distopt_adam.cpp │ │ │ │ │ ├── multi_tensor_distopt_adam_kernel.cu │ │ │ │ │ ├── multi_tensor_distopt_lamb.cpp │ │ │ │ │ └── multi_tensor_distopt_lamb_kernel.cu │ │ │ │ ├── transducer/ │ │ │ │ │ ├── transducer_joint.cpp │ │ │ │ │ ├── transducer_joint_kernel.cu │ │ │ │ │ ├── transducer_loss.cpp │ │ │ │ │ └── transducer_loss_kernel.cu │ │ │ │ └── xentropy/ │ │ │ │ ├── interface.cpp │ │ │ │ └── xentropy_kernel.cu │ │ │ ├── examples/ │ │ │ │ └── multihead_attn/ │ │ │ │ ├── func_test_multihead_attn.py │ │ │ │ └── perf_test_multihead_attn.py │ │ │ ├── fmha/ │ │ │ │ ├── __init__.py │ │ │ │ └── fmha.py │ │ │ ├── groupbn/ │ │ │ │ ├── __init__.py │ │ │ │ └── batch_norm.py │ │ │ ├── layer_norm/ │ │ │ │ ├── __init__.py │ │ │ │ └── layer_norm.py │ │ │ ├── multihead_attn/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── encdec_multihead_attn.py │ │ │ │ ├── encdec_multihead_attn_func.py │ │ │ │ ├── fast_encdec_multihead_attn_func.py │ │ │ │ ├── fast_encdec_multihead_attn_norm_add_func.py │ │ │ │ ├── fast_self_multihead_attn_func.py │ │ │ │ ├── fast_self_multihead_attn_norm_add_func.py │ │ │ │ ├── mask_softmax_dropout_func.py │ │ │ │ ├── self_multihead_attn.py │ │ │ │ └── self_multihead_attn_func.py │ │ │ ├── optimizers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── distributed_fused_adam.py │ │ │ │ ├── distributed_fused_adam_v2.py │ │ │ │ ├── distributed_fused_adam_v3.py │ │ │ │ ├── distributed_fused_lamb.py │ │ │ │ ├── fp16_optimizer.py │ │ │ │ ├── fused_adam.py │ │ │ │ ├── fused_lamb.py │ │ │ │ └── fused_sgd.py │ │ │ ├── sparsity/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── asp.py │ │ │ │ ├── sparse_masklib.py │ │ │ │ └── test/ │ │ │ │ ├── checkpointing_test_part1.py │ │ │ │ ├── checkpointing_test_part2.py │ │ │ │ ├── checkpointing_test_reference.py │ │ │ │ └── toy_problem.py │ │ │ ├── test/ │ │ │ │ ├── fmha/ │ │ │ │ │ └── test_fmha.py │ │ │ │ ├── layer_norm/ │ │ │ │ │ └── test_fast_layer_norm.py │ │ │ │ ├── multihead_attn/ │ │ │ │ │ ├── test_encdec_multihead_attn.py │ │ │ │ │ ├── test_encdec_multihead_attn_norm_add.py │ │ │ │ │ ├── test_fast_self_multihead_attn_bias.py │ │ │ │ │ ├── test_mha_fused_softmax.py │ │ │ │ │ ├── test_self_multihead_attn.py │ │ │ │ │ └── test_self_multihead_attn_norm_add.py │ │ │ │ ├── test_label_smoothing.py │ │ │ │ └── transducer/ │ │ │ │ ├── test_transducer_joint.py │ │ │ │ ├── test_transducer_loss.py │ │ │ │ └── transducer_ref.py │ │ │ ├── transducer/ │ │ │ │ ├── __init__.py │ │ │ │ └── transducer.py │ │ │ └── xentropy/ │ │ │ ├── __init__.py │ │ │ └── softmax_xentropy.py │ │ ├── fp16_utils/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── fp16_optimizer.py │ │ │ ├── fp16util.py │ │ │ └── loss_scaler.py │ │ ├── mlp/ │ │ │ ├── __init__.py │ │ │ └── mlp.py │ │ ├── multi_tensor_apply/ │ │ │ ├── __init__.py │ │ │ └── multi_tensor_apply.py │ │ ├── normalization/ │ │ │ ├── __init__.py │ │ │ └── fused_layer_norm.py │ │ ├── optimizers/ │ │ │ ├── __init__.py │ │ │ ├── fused_adagrad.py │ │ │ ├── fused_adam.py │ │ │ ├── fused_lamb.py │ │ │ ├── fused_novograd.py │ │ │ └── fused_sgd.py │ │ ├── parallel/ │ │ │ ├── LARC.py │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── distributed.py │ │ │ ├── multiproc.py │ │ │ ├── optimized_sync_batchnorm.py │ │ │ ├── optimized_sync_batchnorm_kernel.py │ │ │ ├── sync_batchnorm.py │ │ │ └── sync_batchnorm_kernel.py │ │ ├── pyprof/ │ │ │ ├── FAQs.md │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── examples/ │ │ │ │ ├── .gitignore │ │ │ │ ├── apex/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── fused_adam.py │ │ │ │ │ ├── fused_layer_norm.py │ │ │ │ │ └── test.sh │ │ │ │ ├── custom_func_module/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── custom_function.py │ │ │ │ │ ├── custom_module.py │ │ │ │ │ └── test.sh │ │ │ │ ├── imagenet/ │ │ │ │ │ ├── imagenet.py │ │ │ │ │ └── test.sh │ │ │ │ ├── jit/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── jit_script_function.py │ │ │ │ │ ├── jit_script_method.py │ │ │ │ │ ├── jit_trace_function.py │ │ │ │ │ ├── jit_trace_method.py │ │ │ │ │ └── test.sh │ │ │ │ ├── lenet.py │ │ │ │ ├── operators.py │ │ │ │ ├── simple.py │ │ │ │ └── user_annotation/ │ │ │ │ ├── README.md │ │ │ │ ├── resnet.py │ │ │ │ └── test.sh │ │ │ ├── nvtx/ │ │ │ │ ├── __init__.py │ │ │ │ └── nvmarker.py │ │ │ ├── parse/ │ │ │ │ ├── __init__.py │ │ │ │ ├── __main__.py │ │ │ │ ├── db.py │ │ │ │ ├── kernel.py │ │ │ │ ├── nvvp.py │ │ │ │ └── parse.py │ │ │ └── prof/ │ │ │ ├── __init__.py │ │ │ ├── __main__.py │ │ │ ├── activation.py │ │ │ ├── base.py │ │ │ ├── blas.py │ │ │ ├── conv.py │ │ │ ├── convert.py │ │ │ ├── data.py │ │ │ ├── dropout.py │ │ │ ├── embedding.py │ │ │ ├── index_slice_join_mutate.py │ │ │ ├── linear.py │ │ │ ├── loss.py │ │ │ ├── misc.py │ │ │ ├── normalization.py │ │ │ ├── optim.py │ │ │ ├── output.py │ │ │ ├── pointwise.py │ │ │ ├── pooling.py │ │ │ ├── prof.py │ │ │ ├── randomSample.py │ │ │ ├── recurrentCell.py │ │ │ ├── reduction.py │ │ │ ├── softmax.py │ │ │ ├── usage.py │ │ │ └── utility.py │ │ └── reparameterization/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── reparameterization.py │ │ └── weight_norm.py │ ├── data/ │ │ └── dataloader.py │ ├── main.py │ ├── model/ │ │ ├── loss.py │ │ ├── setting.py │ │ ├── simcse/ │ │ │ ├── bert.py │ │ │ └── processor.py │ │ └── utils.py │ ├── output/ │ │ └── empty.txt │ ├── requirements.txt │ └── run_example.sh ├── LICENSE ├── README.md ├── get_model_checkpoint.sh └── get_model_dataset.sh