gitextract_y9jvowoy/

├── KoSBERT/
│   ├── Clustering.py
│   ├── README.md
│   ├── SemanticSearch.py
│   ├── con_training_sts.py
│   ├── output/
│   │   └── empty.txt
│   ├── run_example.sh
│   └── training_nli.py
├── KoSentenceT5/
│   ├── README.md
│   ├── apex/
│   │   ├── RNN/
│   │   │   ├── README.md
│   │   │   ├── RNNBackend.py
│   │   │   ├── __init__.py
│   │   │   ├── cells.py
│   │   │   └── models.py
│   │   ├── __init__.py
│   │   ├── amp/
│   │   │   ├── README.md
│   │   │   ├── __init__.py
│   │   │   ├── __version__.py
│   │   │   ├── _amp_state.py
│   │   │   ├── _initialize.py
│   │   │   ├── _process_optimizer.py
│   │   │   ├── amp.py
│   │   │   ├── compat.py
│   │   │   ├── frontend.py
│   │   │   ├── handle.py
│   │   │   ├── lists/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── functional_overrides.py
│   │   │   │   ├── tensor_overrides.py
│   │   │   │   └── torch_overrides.py
│   │   │   ├── opt.py
│   │   │   ├── rnn_compat.py
│   │   │   ├── scaler.py
│   │   │   ├── utils.py
│   │   │   └── wrap.py
│   │   ├── contrib/
│   │   │   ├── __init__.py
│   │   │   ├── bottleneck/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── bottleneck.py
│   │   │   │   └── test.py
│   │   │   ├── csrc/
│   │   │   │   ├── bottleneck/
│   │   │   │   │   └── bottleneck.cpp
│   │   │   │   ├── fmha/
│   │   │   │   │   ├── fmha_api.cpp
│   │   │   │   │   └── src/
│   │   │   │   │       ├── fmha/
│   │   │   │   │       │   ├── gemm.h
│   │   │   │   │       │   ├── gmem_tile.h
│   │   │   │   │       │   ├── kernel_traits.h
│   │   │   │   │       │   ├── mask.h
│   │   │   │   │       │   ├── smem_tile.h
│   │   │   │   │       │   ├── softmax.h
│   │   │   │   │       │   └── utils.h
│   │   │   │   │       ├── fmha.h
│   │   │   │   │       ├── fmha_dgrad_fp16_128_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_dgrad_fp16_256_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_dgrad_fp16_384_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_dgrad_fp16_512_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_dgrad_kernel_1xN_reload.h
│   │   │   │   │       ├── fmha_dgrad_kernel_1xN_reload_nl.h
│   │   │   │   │       ├── fmha_fprop_fp16_128_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_fprop_fp16_256_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_fprop_fp16_384_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_fprop_fp16_512_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_fprop_kernel_1xN.h
│   │   │   │   │       ├── fmha_fprop_kernel_1xN_nl.h
│   │   │   │   │       ├── fmha_fprop_kernel_1xN_reload_v.h
│   │   │   │   │       ├── fmha_kernel.h
│   │   │   │   │       ├── fmha_noloop_reduce.cu
│   │   │   │   │       └── fmha_utils.h
│   │   │   │   ├── groupbn/
│   │   │   │   │   ├── batch_norm.cu
│   │   │   │   │   ├── batch_norm.h
│   │   │   │   │   ├── batch_norm_add_relu.cu
│   │   │   │   │   ├── batch_norm_add_relu.h
│   │   │   │   │   ├── cuda_utils.h
│   │   │   │   │   ├── interface.cpp
│   │   │   │   │   ├── ipc.cu
│   │   │   │   │   └── nhwc_batch_norm_kernel.h
│   │   │   │   ├── layer_norm/
│   │   │   │   │   ├── ln_api.cpp
│   │   │   │   │   ├── ln_bwd_semi_cuda_kernel.cu
│   │   │   │   │   ├── ln_fwd_cuda_kernel.cu
│   │   │   │   │   ├── ln_kernel_traits.h
│   │   │   │   │   └── utils.cuh
│   │   │   │   ├── multihead_attn/
│   │   │   │   │   ├── additive_masked_softmax_dropout.cpp
│   │   │   │   │   ├── additive_masked_softmax_dropout_cuda.cu
│   │   │   │   │   ├── dropout.h
│   │   │   │   │   ├── encdec_multihead_attn.cpp
│   │   │   │   │   ├── encdec_multihead_attn_cuda.cu
│   │   │   │   │   ├── encdec_multihead_attn_norm_add.cpp
│   │   │   │   │   ├── encdec_multihead_attn_norm_add_cuda.cu
│   │   │   │   │   ├── layer_norm.h
│   │   │   │   │   ├── masked_softmax_dropout.cpp
│   │   │   │   │   ├── masked_softmax_dropout_cuda.cu
│   │   │   │   │   ├── philox.h
│   │   │   │   │   ├── self_multihead_attn.cpp
│   │   │   │   │   ├── self_multihead_attn_bias.cpp
│   │   │   │   │   ├── self_multihead_attn_bias_additive_mask.cpp
│   │   │   │   │   ├── self_multihead_attn_bias_additive_mask_cuda.cu
│   │   │   │   │   ├── self_multihead_attn_bias_cuda.cu
│   │   │   │   │   ├── self_multihead_attn_cuda.cu
│   │   │   │   │   ├── self_multihead_attn_norm_add.cpp
│   │   │   │   │   ├── self_multihead_attn_norm_add_cuda.cu
│   │   │   │   │   ├── softmax.h
│   │   │   │   │   └── strided_batched_gemm.h
│   │   │   │   ├── optimizers/
│   │   │   │   │   ├── fused_adam_cuda.cpp
│   │   │   │   │   ├── fused_adam_cuda_kernel.cu
│   │   │   │   │   ├── fused_lamb_cuda.cpp
│   │   │   │   │   ├── fused_lamb_cuda_kernel.cu
│   │   │   │   │   ├── multi_tensor_distopt_adam.cpp
│   │   │   │   │   ├── multi_tensor_distopt_adam_kernel.cu
│   │   │   │   │   ├── multi_tensor_distopt_lamb.cpp
│   │   │   │   │   └── multi_tensor_distopt_lamb_kernel.cu
│   │   │   │   ├── transducer/
│   │   │   │   │   ├── transducer_joint.cpp
│   │   │   │   │   ├── transducer_joint_kernel.cu
│   │   │   │   │   ├── transducer_loss.cpp
│   │   │   │   │   └── transducer_loss_kernel.cu
│   │   │   │   └── xentropy/
│   │   │   │       ├── interface.cpp
│   │   │   │       └── xentropy_kernel.cu
│   │   │   ├── examples/
│   │   │   │   └── multihead_attn/
│   │   │   │       ├── func_test_multihead_attn.py
│   │   │   │       └── perf_test_multihead_attn.py
│   │   │   ├── fmha/
│   │   │   │   ├── __init__.py
│   │   │   │   └── fmha.py
│   │   │   ├── groupbn/
│   │   │   │   ├── __init__.py
│   │   │   │   └── batch_norm.py
│   │   │   ├── layer_norm/
│   │   │   │   ├── __init__.py
│   │   │   │   └── layer_norm.py
│   │   │   ├── multihead_attn/
│   │   │   │   ├── README.md
│   │   │   │   ├── __init__.py
│   │   │   │   ├── encdec_multihead_attn.py
│   │   │   │   ├── encdec_multihead_attn_func.py
│   │   │   │   ├── fast_encdec_multihead_attn_func.py
│   │   │   │   ├── fast_encdec_multihead_attn_norm_add_func.py
│   │   │   │   ├── fast_self_multihead_attn_func.py
│   │   │   │   ├── fast_self_multihead_attn_norm_add_func.py
│   │   │   │   ├── mask_softmax_dropout_func.py
│   │   │   │   ├── self_multihead_attn.py
│   │   │   │   └── self_multihead_attn_func.py
│   │   │   ├── optimizers/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── distributed_fused_adam.py
│   │   │   │   ├── distributed_fused_adam_v2.py
│   │   │   │   ├── distributed_fused_adam_v3.py
│   │   │   │   ├── distributed_fused_lamb.py
│   │   │   │   ├── fp16_optimizer.py
│   │   │   │   ├── fused_adam.py
│   │   │   │   ├── fused_lamb.py
│   │   │   │   └── fused_sgd.py
│   │   │   ├── sparsity/
│   │   │   │   ├── README.md
│   │   │   │   ├── __init__.py
│   │   │   │   ├── asp.py
│   │   │   │   ├── sparse_masklib.py
│   │   │   │   └── test/
│   │   │   │       ├── checkpointing_test_part1.py
│   │   │   │       ├── checkpointing_test_part2.py
│   │   │   │       ├── checkpointing_test_reference.py
│   │   │   │       └── toy_problem.py
│   │   │   ├── test/
│   │   │   │   ├── fmha/
│   │   │   │   │   └── test_fmha.py
│   │   │   │   ├── layer_norm/
│   │   │   │   │   └── test_fast_layer_norm.py
│   │   │   │   ├── multihead_attn/
│   │   │   │   │   ├── test_encdec_multihead_attn.py
│   │   │   │   │   ├── test_encdec_multihead_attn_norm_add.py
│   │   │   │   │   ├── test_fast_self_multihead_attn_bias.py
│   │   │   │   │   ├── test_mha_fused_softmax.py
│   │   │   │   │   ├── test_self_multihead_attn.py
│   │   │   │   │   └── test_self_multihead_attn_norm_add.py
│   │   │   │   ├── test_label_smoothing.py
│   │   │   │   └── transducer/
│   │   │   │       ├── test_transducer_joint.py
│   │   │   │       ├── test_transducer_loss.py
│   │   │   │       └── transducer_ref.py
│   │   │   ├── transducer/
│   │   │   │   ├── __init__.py
│   │   │   │   └── transducer.py
│   │   │   └── xentropy/
│   │   │       ├── __init__.py
│   │   │       └── softmax_xentropy.py
│   │   ├── fp16_utils/
│   │   │   ├── README.md
│   │   │   ├── __init__.py
│   │   │   ├── fp16_optimizer.py
│   │   │   ├── fp16util.py
│   │   │   └── loss_scaler.py
│   │   ├── mlp/
│   │   │   ├── __init__.py
│   │   │   └── mlp.py
│   │   ├── multi_tensor_apply/
│   │   │   ├── __init__.py
│   │   │   └── multi_tensor_apply.py
│   │   ├── normalization/
│   │   │   ├── __init__.py
│   │   │   └── fused_layer_norm.py
│   │   ├── optimizers/
│   │   │   ├── __init__.py
│   │   │   ├── fused_adagrad.py
│   │   │   ├── fused_adam.py
│   │   │   ├── fused_lamb.py
│   │   │   ├── fused_novograd.py
│   │   │   └── fused_sgd.py
│   │   ├── parallel/
│   │   │   ├── LARC.py
│   │   │   ├── README.md
│   │   │   ├── __init__.py
│   │   │   ├── distributed.py
│   │   │   ├── multiproc.py
│   │   │   ├── optimized_sync_batchnorm.py
│   │   │   ├── optimized_sync_batchnorm_kernel.py
│   │   │   ├── sync_batchnorm.py
│   │   │   └── sync_batchnorm_kernel.py
│   │   ├── pyprof/
│   │   │   ├── FAQs.md
│   │   │   ├── README.md
│   │   │   ├── __init__.py
│   │   │   ├── examples/
│   │   │   │   ├── .gitignore
│   │   │   │   ├── apex/
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── fused_adam.py
│   │   │   │   │   ├── fused_layer_norm.py
│   │   │   │   │   └── test.sh
│   │   │   │   ├── custom_func_module/
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── custom_function.py
│   │   │   │   │   ├── custom_module.py
│   │   │   │   │   └── test.sh
│   │   │   │   ├── imagenet/
│   │   │   │   │   ├── imagenet.py
│   │   │   │   │   └── test.sh
│   │   │   │   ├── jit/
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── jit_script_function.py
│   │   │   │   │   ├── jit_script_method.py
│   │   │   │   │   ├── jit_trace_function.py
│   │   │   │   │   ├── jit_trace_method.py
│   │   │   │   │   └── test.sh
│   │   │   │   ├── lenet.py
│   │   │   │   ├── operators.py
│   │   │   │   ├── simple.py
│   │   │   │   └── user_annotation/
│   │   │   │       ├── README.md
│   │   │   │       ├── resnet.py
│   │   │   │       └── test.sh
│   │   │   ├── nvtx/
│   │   │   │   ├── __init__.py
│   │   │   │   └── nvmarker.py
│   │   │   ├── parse/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── __main__.py
│   │   │   │   ├── db.py
│   │   │   │   ├── kernel.py
│   │   │   │   ├── nvvp.py
│   │   │   │   └── parse.py
│   │   │   └── prof/
│   │   │       ├── __init__.py
│   │   │       ├── __main__.py
│   │   │       ├── activation.py
│   │   │       ├── base.py
│   │   │       ├── blas.py
│   │   │       ├── conv.py
│   │   │       ├── convert.py
│   │   │       ├── data.py
│   │   │       ├── dropout.py
│   │   │       ├── embedding.py
│   │   │       ├── index_slice_join_mutate.py
│   │   │       ├── linear.py
│   │   │       ├── loss.py
│   │   │       ├── misc.py
│   │   │       ├── normalization.py
│   │   │       ├── optim.py
│   │   │       ├── output.py
│   │   │       ├── pointwise.py
│   │   │       ├── pooling.py
│   │   │       ├── prof.py
│   │   │       ├── randomSample.py
│   │   │       ├── recurrentCell.py
│   │   │       ├── reduction.py
│   │   │       ├── softmax.py
│   │   │       ├── usage.py
│   │   │       └── utility.py
│   │   └── reparameterization/
│   │       ├── README.md
│   │       ├── __init__.py
│   │       ├── reparameterization.py
│   │       └── weight_norm.py
│   ├── data/
│   │   └── dataloader.py
│   ├── main.py
│   ├── model/
│   │   ├── loss.py
│   │   ├── setting.py
│   │   ├── simcse/
│   │   │   ├── kost5.py
│   │   │   └── processor.py
│   │   └── utils.py
│   └── run_example.sh
├── KoSimCSE/
│   ├── README.md
│   ├── SemanticSearch.py
│   ├── apex/
│   │   ├── RNN/
│   │   │   ├── README.md
│   │   │   ├── RNNBackend.py
│   │   │   ├── __init__.py
│   │   │   ├── cells.py
│   │   │   └── models.py
│   │   ├── __init__.py
│   │   ├── amp/
│   │   │   ├── README.md
│   │   │   ├── __init__.py
│   │   │   ├── __version__.py
│   │   │   ├── _amp_state.py
│   │   │   ├── _initialize.py
│   │   │   ├── _process_optimizer.py
│   │   │   ├── amp.py
│   │   │   ├── compat.py
│   │   │   ├── frontend.py
│   │   │   ├── handle.py
│   │   │   ├── lists/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── functional_overrides.py
│   │   │   │   ├── tensor_overrides.py
│   │   │   │   └── torch_overrides.py
│   │   │   ├── opt.py
│   │   │   ├── rnn_compat.py
│   │   │   ├── scaler.py
│   │   │   ├── utils.py
│   │   │   └── wrap.py
│   │   ├── contrib/
│   │   │   ├── __init__.py
│   │   │   ├── bottleneck/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── bottleneck.py
│   │   │   │   └── test.py
│   │   │   ├── csrc/
│   │   │   │   ├── bottleneck/
│   │   │   │   │   └── bottleneck.cpp
│   │   │   │   ├── fmha/
│   │   │   │   │   ├── fmha_api.cpp
│   │   │   │   │   └── src/
│   │   │   │   │       ├── fmha/
│   │   │   │   │       │   ├── gemm.h
│   │   │   │   │       │   ├── gmem_tile.h
│   │   │   │   │       │   ├── kernel_traits.h
│   │   │   │   │       │   ├── mask.h
│   │   │   │   │       │   ├── smem_tile.h
│   │   │   │   │       │   ├── softmax.h
│   │   │   │   │       │   └── utils.h
│   │   │   │   │       ├── fmha.h
│   │   │   │   │       ├── fmha_dgrad_fp16_128_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_dgrad_fp16_256_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_dgrad_fp16_384_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_dgrad_fp16_512_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_dgrad_kernel_1xN_reload.h
│   │   │   │   │       ├── fmha_dgrad_kernel_1xN_reload_nl.h
│   │   │   │   │       ├── fmha_fprop_fp16_128_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_fprop_fp16_256_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_fprop_fp16_384_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_fprop_fp16_512_64_kernel.sm80.cu
│   │   │   │   │       ├── fmha_fprop_kernel_1xN.h
│   │   │   │   │       ├── fmha_fprop_kernel_1xN_nl.h
│   │   │   │   │       ├── fmha_fprop_kernel_1xN_reload_v.h
│   │   │   │   │       ├── fmha_kernel.h
│   │   │   │   │       ├── fmha_noloop_reduce.cu
│   │   │   │   │       └── fmha_utils.h
│   │   │   │   ├── groupbn/
│   │   │   │   │   ├── batch_norm.cu
│   │   │   │   │   ├── batch_norm.h
│   │   │   │   │   ├── batch_norm_add_relu.cu
│   │   │   │   │   ├── batch_norm_add_relu.h
│   │   │   │   │   ├── cuda_utils.h
│   │   │   │   │   ├── interface.cpp
│   │   │   │   │   ├── ipc.cu
│   │   │   │   │   └── nhwc_batch_norm_kernel.h
│   │   │   │   ├── layer_norm/
│   │   │   │   │   ├── ln_api.cpp
│   │   │   │   │   ├── ln_bwd_semi_cuda_kernel.cu
│   │   │   │   │   ├── ln_fwd_cuda_kernel.cu
│   │   │   │   │   ├── ln_kernel_traits.h
│   │   │   │   │   └── utils.cuh
│   │   │   │   ├── multihead_attn/
│   │   │   │   │   ├── additive_masked_softmax_dropout.cpp
│   │   │   │   │   ├── additive_masked_softmax_dropout_cuda.cu
│   │   │   │   │   ├── dropout.h
│   │   │   │   │   ├── encdec_multihead_attn.cpp
│   │   │   │   │   ├── encdec_multihead_attn_cuda.cu
│   │   │   │   │   ├── encdec_multihead_attn_norm_add.cpp
│   │   │   │   │   ├── encdec_multihead_attn_norm_add_cuda.cu
│   │   │   │   │   ├── layer_norm.h
│   │   │   │   │   ├── masked_softmax_dropout.cpp
│   │   │   │   │   ├── masked_softmax_dropout_cuda.cu
│   │   │   │   │   ├── philox.h
│   │   │   │   │   ├── self_multihead_attn.cpp
│   │   │   │   │   ├── self_multihead_attn_bias.cpp
│   │   │   │   │   ├── self_multihead_attn_bias_additive_mask.cpp
│   │   │   │   │   ├── self_multihead_attn_bias_additive_mask_cuda.cu
│   │   │   │   │   ├── self_multihead_attn_bias_cuda.cu
│   │   │   │   │   ├── self_multihead_attn_cuda.cu
│   │   │   │   │   ├── self_multihead_attn_norm_add.cpp
│   │   │   │   │   ├── self_multihead_attn_norm_add_cuda.cu
│   │   │   │   │   ├── softmax.h
│   │   │   │   │   └── strided_batched_gemm.h
│   │   │   │   ├── optimizers/
│   │   │   │   │   ├── fused_adam_cuda.cpp
│   │   │   │   │   ├── fused_adam_cuda_kernel.cu
│   │   │   │   │   ├── fused_lamb_cuda.cpp
│   │   │   │   │   ├── fused_lamb_cuda_kernel.cu
│   │   │   │   │   ├── multi_tensor_distopt_adam.cpp
│   │   │   │   │   ├── multi_tensor_distopt_adam_kernel.cu
│   │   │   │   │   ├── multi_tensor_distopt_lamb.cpp
│   │   │   │   │   └── multi_tensor_distopt_lamb_kernel.cu
│   │   │   │   ├── transducer/
│   │   │   │   │   ├── transducer_joint.cpp
│   │   │   │   │   ├── transducer_joint_kernel.cu
│   │   │   │   │   ├── transducer_loss.cpp
│   │   │   │   │   └── transducer_loss_kernel.cu
│   │   │   │   └── xentropy/
│   │   │   │       ├── interface.cpp
│   │   │   │       └── xentropy_kernel.cu
│   │   │   ├── examples/
│   │   │   │   └── multihead_attn/
│   │   │   │       ├── func_test_multihead_attn.py
│   │   │   │       └── perf_test_multihead_attn.py
│   │   │   ├── fmha/
│   │   │   │   ├── __init__.py
│   │   │   │   └── fmha.py
│   │   │   ├── groupbn/
│   │   │   │   ├── __init__.py
│   │   │   │   └── batch_norm.py
│   │   │   ├── layer_norm/
│   │   │   │   ├── __init__.py
│   │   │   │   └── layer_norm.py
│   │   │   ├── multihead_attn/
│   │   │   │   ├── README.md
│   │   │   │   ├── __init__.py
│   │   │   │   ├── encdec_multihead_attn.py
│   │   │   │   ├── encdec_multihead_attn_func.py
│   │   │   │   ├── fast_encdec_multihead_attn_func.py
│   │   │   │   ├── fast_encdec_multihead_attn_norm_add_func.py
│   │   │   │   ├── fast_self_multihead_attn_func.py
│   │   │   │   ├── fast_self_multihead_attn_norm_add_func.py
│   │   │   │   ├── mask_softmax_dropout_func.py
│   │   │   │   ├── self_multihead_attn.py
│   │   │   │   └── self_multihead_attn_func.py
│   │   │   ├── optimizers/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── distributed_fused_adam.py
│   │   │   │   ├── distributed_fused_adam_v2.py
│   │   │   │   ├── distributed_fused_adam_v3.py
│   │   │   │   ├── distributed_fused_lamb.py
│   │   │   │   ├── fp16_optimizer.py
│   │   │   │   ├── fused_adam.py
│   │   │   │   ├── fused_lamb.py
│   │   │   │   └── fused_sgd.py
│   │   │   ├── sparsity/
│   │   │   │   ├── README.md
│   │   │   │   ├── __init__.py
│   │   │   │   ├── asp.py
│   │   │   │   ├── sparse_masklib.py
│   │   │   │   └── test/
│   │   │   │       ├── checkpointing_test_part1.py
│   │   │   │       ├── checkpointing_test_part2.py
│   │   │   │       ├── checkpointing_test_reference.py
│   │   │   │       └── toy_problem.py
│   │   │   ├── test/
│   │   │   │   ├── fmha/
│   │   │   │   │   └── test_fmha.py
│   │   │   │   ├── layer_norm/
│   │   │   │   │   └── test_fast_layer_norm.py
│   │   │   │   ├── multihead_attn/
│   │   │   │   │   ├── test_encdec_multihead_attn.py
│   │   │   │   │   ├── test_encdec_multihead_attn_norm_add.py
│   │   │   │   │   ├── test_fast_self_multihead_attn_bias.py
│   │   │   │   │   ├── test_mha_fused_softmax.py
│   │   │   │   │   ├── test_self_multihead_attn.py
│   │   │   │   │   └── test_self_multihead_attn_norm_add.py
│   │   │   │   ├── test_label_smoothing.py
│   │   │   │   └── transducer/
│   │   │   │       ├── test_transducer_joint.py
│   │   │   │       ├── test_transducer_loss.py
│   │   │   │       └── transducer_ref.py
│   │   │   ├── transducer/
│   │   │   │   ├── __init__.py
│   │   │   │   └── transducer.py
│   │   │   └── xentropy/
│   │   │       ├── __init__.py
│   │   │       └── softmax_xentropy.py
│   │   ├── fp16_utils/
│   │   │   ├── README.md
│   │   │   ├── __init__.py
│   │   │   ├── fp16_optimizer.py
│   │   │   ├── fp16util.py
│   │   │   └── loss_scaler.py
│   │   ├── mlp/
│   │   │   ├── __init__.py
│   │   │   └── mlp.py
│   │   ├── multi_tensor_apply/
│   │   │   ├── __init__.py
│   │   │   └── multi_tensor_apply.py
│   │   ├── normalization/
│   │   │   ├── __init__.py
│   │   │   └── fused_layer_norm.py
│   │   ├── optimizers/
│   │   │   ├── __init__.py
│   │   │   ├── fused_adagrad.py
│   │   │   ├── fused_adam.py
│   │   │   ├── fused_lamb.py
│   │   │   ├── fused_novograd.py
│   │   │   └── fused_sgd.py
│   │   ├── parallel/
│   │   │   ├── LARC.py
│   │   │   ├── README.md
│   │   │   ├── __init__.py
│   │   │   ├── distributed.py
│   │   │   ├── multiproc.py
│   │   │   ├── optimized_sync_batchnorm.py
│   │   │   ├── optimized_sync_batchnorm_kernel.py
│   │   │   ├── sync_batchnorm.py
│   │   │   └── sync_batchnorm_kernel.py
│   │   ├── pyprof/
│   │   │   ├── FAQs.md
│   │   │   ├── README.md
│   │   │   ├── __init__.py
│   │   │   ├── examples/
│   │   │   │   ├── .gitignore
│   │   │   │   ├── apex/
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── fused_adam.py
│   │   │   │   │   ├── fused_layer_norm.py
│   │   │   │   │   └── test.sh
│   │   │   │   ├── custom_func_module/
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── custom_function.py
│   │   │   │   │   ├── custom_module.py
│   │   │   │   │   └── test.sh
│   │   │   │   ├── imagenet/
│   │   │   │   │   ├── imagenet.py
│   │   │   │   │   └── test.sh
│   │   │   │   ├── jit/
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── jit_script_function.py
│   │   │   │   │   ├── jit_script_method.py
│   │   │   │   │   ├── jit_trace_function.py
│   │   │   │   │   ├── jit_trace_method.py
│   │   │   │   │   └── test.sh
│   │   │   │   ├── lenet.py
│   │   │   │   ├── operators.py
│   │   │   │   ├── simple.py
│   │   │   │   └── user_annotation/
│   │   │   │       ├── README.md
│   │   │   │       ├── resnet.py
│   │   │   │       └── test.sh
│   │   │   ├── nvtx/
│   │   │   │   ├── __init__.py
│   │   │   │   └── nvmarker.py
│   │   │   ├── parse/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── __main__.py
│   │   │   │   ├── db.py
│   │   │   │   ├── kernel.py
│   │   │   │   ├── nvvp.py
│   │   │   │   └── parse.py
│   │   │   └── prof/
│   │   │       ├── __init__.py
│   │   │       ├── __main__.py
│   │   │       ├── activation.py
│   │   │       ├── base.py
│   │   │       ├── blas.py
│   │   │       ├── conv.py
│   │   │       ├── convert.py
│   │   │       ├── data.py
│   │   │       ├── dropout.py
│   │   │       ├── embedding.py
│   │   │       ├── index_slice_join_mutate.py
│   │   │       ├── linear.py
│   │   │       ├── loss.py
│   │   │       ├── misc.py
│   │   │       ├── normalization.py
│   │   │       ├── optim.py
│   │   │       ├── output.py
│   │   │       ├── pointwise.py
│   │   │       ├── pooling.py
│   │   │       ├── prof.py
│   │   │       ├── randomSample.py
│   │   │       ├── recurrentCell.py
│   │   │       ├── reduction.py
│   │   │       ├── softmax.py
│   │   │       ├── usage.py
│   │   │       └── utility.py
│   │   └── reparameterization/
│   │       ├── README.md
│   │       ├── __init__.py
│   │       ├── reparameterization.py
│   │       └── weight_norm.py
│   ├── data/
│   │   └── dataloader.py
│   ├── main.py
│   ├── model/
│   │   ├── loss.py
│   │   ├── setting.py
│   │   ├── simcse/
│   │   │   ├── bert.py
│   │   │   └── processor.py
│   │   └── utils.py
│   ├── output/
│   │   └── empty.txt
│   ├── requirements.txt
│   └── run_example.sh
├── LICENSE
├── README.md
├── get_model_checkpoint.sh
└── get_model_dataset.sh