gitextract_ni0k430x/ ├── .gitignore ├── .run.sh.swp ├── README.md ├── __init__.py ├── asr/ │ ├── __init__.py │ ├── asr_mix_utils.py │ ├── asr_utils.py │ ├── chainer_backend/ │ │ ├── __init__.py │ │ └── asr.py │ └── pytorch_backend/ │ ├── __init__.py │ ├── asr.py │ ├── asr_init.py │ ├── asr_mix.py │ └── recog.py ├── bin/ │ ├── __init__.py │ ├── asr_align.py │ ├── asr_enhance.py │ ├── asr_recog.py │ ├── asr_train.py │ ├── lm_train.py │ ├── mt_train.py │ ├── mt_trans.py │ ├── st_train.py │ ├── st_trans.py │ ├── tts_decode.py │ ├── tts_train.py │ ├── vc_decode.py │ └── vc_train.py ├── egs/ │ ├── .gitignore │ ├── aishell1/ │ │ ├── .gitignore │ │ ├── aed.sh │ │ ├── cmd.sh │ │ ├── conf/ │ │ │ ├── fbank.conf │ │ │ ├── gpu.conf │ │ │ ├── lm.yaml │ │ │ ├── lm_rnn.yaml │ │ │ ├── lm_transformer.yaml │ │ │ ├── pitch.conf │ │ │ ├── queue.conf │ │ │ ├── slurm.conf │ │ │ ├── specaug.yaml │ │ │ ├── specaug_test.yaml │ │ │ └── tuning/ │ │ │ ├── decode_pytorch_transformer.yaml │ │ │ ├── decode_rnn.yaml │ │ │ ├── train_pytorch_conformer_kernel15.yaml │ │ │ ├── train_pytorch_conformer_kernel31.yaml │ │ │ ├── train_pytorch_conformer_kernel31_large.yaml │ │ │ ├── train_pytorch_conformer_kernel31_small.yaml │ │ │ ├── train_pytorch_transformer.yaml │ │ │ ├── train_rnn.yaml │ │ │ └── transducer/ │ │ │ ├── decode_default.yaml │ │ │ ├── train_conformer-rnn_transducer.yaml │ │ │ ├── train_conformer-rnn_transducer_aux_ngpu4.yaml │ │ │ ├── train_conformer-rnn_transducer_aux_ngpu4_att.yaml │ │ │ ├── train_conformer-rnn_transducer_aux_ngpu4_small.yaml │ │ │ ├── train_conformer-rnn_transducer_ngpu4.yaml │ │ │ ├── train_conformer-rnn_transducer_ngpu4_large.yaml │ │ │ ├── train_transducer.yaml │ │ │ └── train_transducer_aux.yaml │ │ ├── local/ │ │ │ ├── add_lex_disambig.pl │ │ │ ├── aishell_data_prep.sh │ │ │ ├── aishell_train_lms.sh │ │ │ ├── apply_map.pl │ │ │ ├── build_sp_text.py │ │ │ ├── build_word_mapping.py │ │ │ ├── compile_bigram.sh │ │ │ ├── download_and_untar.sh │ │ │ ├── fstaddselfloops.pl │ │ │ ├── k2_aishell_prepare_dict.sh │ │ │ ├── k2_aishell_prepare_dict_char.sh │ │ │ ├── k2_prepare_lang.sh │ │ │ ├── make_lexicon_fst.py │ │ │ ├── max_rescore.py │ │ │ ├── parse_options.sh │ │ │ ├── parse_text_jieba.py │ │ │ ├── prepare_word_lex.py │ │ │ └── sym2int.pl │ │ ├── nt.sh │ │ ├── path.sh │ │ └── prepare.sh │ ├── aishell2/ │ │ ├── .gitignore │ │ ├── aed.sh │ │ ├── conf/ │ │ │ ├── .fbank.conf.swp │ │ │ ├── fbank.conf │ │ │ ├── gpu.conf │ │ │ ├── lm.yaml │ │ │ ├── lm_rnn.yaml │ │ │ ├── lm_transformer.yaml │ │ │ ├── pitch.conf │ │ │ ├── queue.conf │ │ │ ├── slurm.conf │ │ │ ├── specaug.yaml │ │ │ ├── specaug_test.yaml │ │ │ └── tuning/ │ │ │ ├── decode_pytorch_transformer.yaml │ │ │ ├── decode_rnn.yaml │ │ │ ├── train_pytorch_conformer_kernel15.yaml │ │ │ ├── train_pytorch_conformer_kernel31.yaml │ │ │ ├── train_pytorch_transformer.yaml │ │ │ ├── train_rnn.yaml │ │ │ └── transducer/ │ │ │ ├── decode_default.yaml │ │ │ ├── train_conformer-rnn_transducer.yaml │ │ │ ├── train_conformer-rnn_transducer_aux_ngpu4.yaml │ │ │ ├── train_conformer-rnn_transducer_ngpu4.yaml │ │ │ ├── train_transducer.yaml │ │ │ └── train_transducer_aux.yaml │ │ ├── local/ │ │ │ ├── add_lex_disambig.pl │ │ │ ├── apply_map.pl │ │ │ ├── fstaddselfloops.pl │ │ │ ├── jieba_split_text.py │ │ │ ├── k2_prepare_lang.sh │ │ │ ├── make_lexicon_fst.py │ │ │ ├── max_rescore.py │ │ │ ├── mmi_rescore.sh │ │ │ ├── parse_options.sh │ │ │ ├── prepare_data.sh │ │ │ ├── prepare_dict.sh │ │ │ ├── rerank.py │ │ │ ├── sym2int.pl │ │ │ ├── train_lms.sh │ │ │ └── word_segmentation.py │ │ ├── nt.sh │ │ └── prepare.sh │ ├── asrucs/ │ │ ├── .gitignore │ │ ├── cmd.sh │ │ ├── conf/ │ │ │ ├── decode.yaml │ │ │ ├── fbank.conf │ │ │ ├── gpu.conf │ │ │ ├── lm.yaml │ │ │ ├── lm_rnn.yaml │ │ │ ├── lm_transformer.yaml │ │ │ ├── pitch.conf │ │ │ ├── pure_ctc.yaml │ │ │ ├── queue.conf │ │ │ ├── slurm.conf │ │ │ ├── specaug.yaml │ │ │ ├── specaug_test.yaml │ │ │ ├── train.yaml │ │ │ ├── train_conformer-rnn_transducer_cs.yaml │ │ │ └── tuning/ │ │ │ ├── decode_pytorch_transformer.yaml │ │ │ ├── decode_rnn.yaml │ │ │ ├── train_pytorch_conformer_kernel15.yaml │ │ │ ├── train_pytorch_conformer_kernel31.yaml │ │ │ ├── train_pytorch_conformer_kernel31_large.yaml │ │ │ ├── train_pytorch_conformer_kernel31_small.yaml │ │ │ ├── train_pytorch_transformer.yaml │ │ │ ├── train_rnn.yaml │ │ │ └── transducer/ │ │ │ ├── decode_default.yaml │ │ │ ├── train_conformer-rnn_transducer.yaml │ │ │ ├── train_conformer-rnn_transducer_aux_ngpu4.yaml │ │ │ ├── train_conformer-rnn_transducer_aux_ngpu4_att.yaml │ │ │ ├── train_conformer-rnn_transducer_aux_ngpu4_small.yaml │ │ │ ├── train_conformer-rnn_transducer_ngpu4.yaml │ │ │ ├── train_conformer-rnn_transducer_ngpu4_large.yaml │ │ │ ├── train_transducer.yaml │ │ │ └── train_transducer_aux.yaml │ │ ├── espnet │ │ ├── espnet_utils │ │ ├── local/ │ │ │ ├── add_seperator.py │ │ │ ├── generate_fake_cs.py │ │ │ └── prepare_fake_cs.sh │ │ ├── nt.sh │ │ ├── path.sh │ │ ├── prepare.sh │ │ ├── steps │ │ ├── text │ │ └── utils │ ├── espnet_utils/ │ │ ├── add_uttcls_json.py │ │ ├── addjson.py │ │ ├── apply-cmvn.py │ │ ├── asr_align_wav.sh │ │ ├── average_checkpoints.py │ │ ├── build_fake_lexicon.py │ │ ├── build_sp_text.py │ │ ├── calculate_rtf.py │ │ ├── change_root.py │ │ ├── change_yaml.py │ │ ├── clean_corpus.sh │ │ ├── compute-cmvn-stats.py │ │ ├── compute-fbank-feats.py │ │ ├── compute-stft-feats.py │ │ ├── concat_json_multiref.py │ │ ├── concatjson.py │ │ ├── convert_fbank.sh │ │ ├── convert_fbank_to_wav.py │ │ ├── copy-feats.py │ │ ├── data2json.sh │ │ ├── divide_lang.sh │ │ ├── double_precious_cer.py │ │ ├── download_from_google_drive.sh │ │ ├── dump-pcm.py │ │ ├── dump.sh │ │ ├── dump_pcm.sh │ │ ├── eval-source-separation.py │ │ ├── eval_perm_free_error.py │ │ ├── eval_source_separation.sh │ │ ├── feat-to-shape.py │ │ ├── feat_to_shape.sh │ │ ├── feats2npy.py │ │ ├── filt.py │ │ ├── filter_all_eng_utts.py │ │ ├── filter_scp.py │ │ ├── filter_trn.py │ │ ├── free-gpu.sh │ │ ├── gdown.pl │ │ ├── generate_wav.sh │ │ ├── generate_wav_from_fbank.py │ │ ├── get_yaml.py │ │ ├── jieba_build_dict.py │ │ ├── json2sctm.py │ │ ├── json2text.py │ │ ├── json2trn.py │ │ ├── json2trn_mt.py │ │ ├── json2trn_wo_dict.py │ │ ├── k2/ │ │ │ ├── add_lex_disambig.pl │ │ │ ├── apply_map.pl │ │ │ ├── fstaddselfloops.pl │ │ │ ├── k2_prepare_lang.sh │ │ │ ├── parse_options.sh │ │ │ └── sym2int.pl │ │ ├── make_fbank.sh │ │ ├── make_pair_json.py │ │ ├── make_stft.sh │ │ ├── mbr_analysis.py │ │ ├── mcd_calculate.py │ │ ├── merge_scp2json.py │ │ ├── mergejson.py │ │ ├── mix-mono-wav-scp.py │ │ ├── mmi_rescore.sh │ │ ├── pack_model.sh │ │ ├── prepare_block_load.sh │ │ ├── prepare_mer.py │ │ ├── queue-freegpu.pl │ │ ├── recog_wav.sh │ │ ├── reduce_data_dir.sh │ │ ├── remove_longshortdata.sh │ │ ├── remove_punctuation.pl │ │ ├── rerank_mmi.py │ │ ├── result2json.py │ │ ├── score_bleu.sh │ │ ├── score_lang_id.py │ │ ├── score_sclite.sh │ │ ├── score_sclite_case.sh │ │ ├── score_sclite_wo_dict.sh │ │ ├── scp2json.py │ │ ├── show_result.sh │ │ ├── significant_test.sh │ │ ├── sort_scp_by_length.py │ │ ├── speed_perturb.sh │ │ ├── split_scp.py │ │ ├── split_scp_fix_length.py │ │ ├── splitjson.py │ │ ├── spm_decode │ │ ├── spm_encode │ │ ├── spm_train │ │ ├── stdout.pl │ │ ├── synth_wav.sh │ │ ├── text2token.py │ │ ├── text2vocabulary.py │ │ ├── text_norm.py │ │ ├── trace_rnnt.py │ │ ├── train_lms_srilm.sh │ │ ├── translate_wav.sh │ │ ├── trim_silence.py │ │ ├── trim_silence.sh │ │ ├── trn2ctm.py │ │ ├── trn2stm.py │ │ ├── update_json.sh │ │ ├── word_ngram_rescore.py │ │ └── word_ngram_rescore.sh │ ├── steps/ │ │ ├── align_basis_fmllr.sh │ │ ├── align_basis_fmllr_lats.sh │ │ ├── align_fmllr.sh │ │ ├── align_fmllr_lats.sh │ │ ├── align_lvtln.sh │ │ ├── align_raw_fmllr.sh │ │ ├── align_sgmm2.sh │ │ ├── align_si.sh │ │ ├── best_path_weights.sh │ │ ├── cleanup/ │ │ │ ├── clean_and_segment_data.sh │ │ │ ├── clean_and_segment_data_nnet3.sh │ │ │ ├── combine_short_segments.py │ │ │ ├── create_segments_from_ctm.pl │ │ │ ├── debug_lexicon.sh │ │ │ ├── decode_fmllr_segmentation.sh │ │ │ ├── decode_segmentation.sh │ │ │ ├── decode_segmentation_nnet3.sh │ │ │ ├── find_bad_utts.sh │ │ │ ├── find_bad_utts_nnet.sh │ │ │ ├── internal/ │ │ │ │ ├── align_ctm_ref.py │ │ │ │ ├── compute_tf_idf.py │ │ │ │ ├── ctm_to_text.pl │ │ │ │ ├── get_ctm_edits.py │ │ │ │ ├── get_non_scored_words.py │ │ │ │ ├── get_pron_stats.py │ │ │ │ ├── make_one_biased_lm.py │ │ │ │ ├── modify_ctm_edits.py │ │ │ │ ├── resolve_ctm_edits_overlaps.py │ │ │ │ ├── retrieve_similar_docs.py │ │ │ │ ├── segment_ctm_edits.py │ │ │ │ ├── segment_ctm_edits_mild.py │ │ │ │ ├── split_text_into_docs.pl │ │ │ │ ├── stitch_documents.py │ │ │ │ ├── taint_ctm_edits.py │ │ │ │ └── tf_idf.py │ │ │ ├── lattice_oracle_align.sh │ │ │ ├── make_biased_lm_graphs.sh │ │ │ ├── make_biased_lms.py │ │ │ ├── make_segmentation_data_dir.sh │ │ │ ├── make_segmentation_graph.sh │ │ │ ├── make_utterance_fsts.pl │ │ │ ├── make_utterance_graph.sh │ │ │ ├── segment_long_utterances.sh │ │ │ ├── segment_long_utterances_nnet3.sh │ │ │ └── split_long_utterance.sh │ │ ├── combine_ali_dirs.sh │ │ ├── combine_trans_dirs.sh │ │ ├── compare_alignments.sh │ │ ├── compute_cmvn_stats.sh │ │ ├── compute_vad_decision.sh │ │ ├── conf/ │ │ │ ├── append_eval_to_ctm.py │ │ │ ├── append_prf_to_ctm.py │ │ │ ├── apply_calibration.sh │ │ │ ├── convert_ctm_to_tra.py │ │ │ ├── get_ctm_conf.sh │ │ │ ├── lattice_depth_per_frame.sh │ │ │ ├── parse_arpa_unigrams.py │ │ │ ├── prepare_calibration_data.py │ │ │ ├── prepare_word_categories.py │ │ │ └── train_calibration.sh │ │ ├── copy_ali_dir.sh │ │ ├── copy_lat_dir.sh │ │ ├── copy_trans_dir.sh │ │ ├── data/ │ │ │ ├── augment_data_dir.py │ │ │ ├── data_dir_manipulation_lib.py │ │ │ ├── make_musan.py │ │ │ ├── make_musan.sh │ │ │ └── reverberate_data_dir.py │ │ ├── decode.sh │ │ ├── decode_basis_fmllr.sh │ │ ├── decode_biglm.sh │ │ ├── decode_combine.sh │ │ ├── decode_fmllr.sh │ │ ├── decode_fmllr_extra.sh │ │ ├── decode_fmmi.sh │ │ ├── decode_fromlats.sh │ │ ├── decode_lvtln.sh │ │ ├── decode_nolats.sh │ │ ├── decode_raw_fmllr.sh │ │ ├── decode_sgmm2.sh │ │ ├── decode_sgmm2_fromlats.sh │ │ ├── decode_sgmm2_rescore.sh │ │ ├── decode_sgmm2_rescore_project.sh │ │ ├── decode_with_map.sh │ │ ├── diagnostic/ │ │ │ ├── analyze_alignments.sh │ │ │ ├── analyze_lats.sh │ │ │ ├── analyze_lattice_depth_stats.py │ │ │ └── analyze_phone_length_stats.py │ │ ├── dict/ │ │ │ ├── apply_g2p.sh │ │ │ ├── apply_g2p_phonetisaurus.sh │ │ │ ├── apply_lexicon_edits.py │ │ │ ├── get_pron_stats.py │ │ │ ├── internal/ │ │ │ │ ├── get_subsegments.py │ │ │ │ ├── prune_pron_candidates.py │ │ │ │ └── sum_arc_info.py │ │ │ ├── learn_lexicon_bayesian.sh │ │ │ ├── learn_lexicon_greedy.sh │ │ │ ├── merge_learned_lexicons.py │ │ │ ├── prons_to_lexicon.py │ │ │ ├── prune_pron_candidates.py │ │ │ ├── select_prons_bayesian.py │ │ │ ├── select_prons_greedy.py │ │ │ ├── train_g2p.sh │ │ │ └── train_g2p_phonetisaurus.sh │ │ ├── get_ctm.sh │ │ ├── get_ctm_conf_fast.sh │ │ ├── get_ctm_fast.sh │ │ ├── get_fmllr_basis.sh │ │ ├── get_lexicon_probs.sh │ │ ├── get_prons.sh │ │ ├── get_train_ctm.sh │ │ ├── info/ │ │ │ ├── chain_dir_info.pl │ │ │ ├── gmm_dir_info.pl │ │ │ ├── nnet2_dir_info.pl │ │ │ ├── nnet3_dir_info.pl │ │ │ └── nnet3_disc_dir_info.pl │ │ ├── libs/ │ │ │ ├── __init__.py │ │ │ ├── common.py │ │ │ └── nnet3/ │ │ │ ├── __init__.py │ │ │ ├── report/ │ │ │ │ ├── __init__.py │ │ │ │ └── log_parse.py │ │ │ ├── train/ │ │ │ │ ├── __init__.py │ │ │ │ ├── chain_objf/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── acoustic_model.py │ │ │ │ ├── common.py │ │ │ │ ├── dropout_schedule.py │ │ │ │ └── frame_level_objf/ │ │ │ │ ├── __init__.py │ │ │ │ ├── acoustic_model.py │ │ │ │ ├── common.py │ │ │ │ └── raw_model.py │ │ │ └── xconfig/ │ │ │ ├── __init__.py │ │ │ ├── attention.py │ │ │ ├── basic_layers.py │ │ │ ├── composite_layers.py │ │ │ ├── convolution.py │ │ │ ├── gru.py │ │ │ ├── layers.py │ │ │ ├── lstm.py │ │ │ ├── parser.py │ │ │ ├── stats_layer.py │ │ │ ├── trivial_layers.py │ │ │ └── utils.py │ │ ├── lmrescore.sh │ │ ├── lmrescore_const_arpa.sh │ │ ├── lmrescore_const_arpa_undeterminized.sh │ │ ├── lmrescore_rnnlm_lat.sh │ │ ├── make_denlats.sh │ │ ├── make_denlats_sgmm2.sh │ │ ├── make_fbank.sh │ │ ├── make_fbank_pitch.sh │ │ ├── make_index.sh │ │ ├── make_mfcc.sh │ │ ├── make_mfcc_pitch.sh │ │ ├── make_mfcc_pitch_online.sh │ │ ├── make_phone_graph.sh │ │ ├── make_plp.sh │ │ ├── make_plp_pitch.sh │ │ ├── nnet/ │ │ │ ├── align.sh │ │ │ ├── decode.sh │ │ │ ├── ivector/ │ │ │ │ ├── extract_ivectors.sh │ │ │ │ ├── train_diag_ubm.sh │ │ │ │ └── train_ivector_extractor.sh │ │ │ ├── make_bn_feats.sh │ │ │ ├── make_denlats.sh │ │ │ ├── make_fmllr_feats.sh │ │ │ ├── make_fmmi_feats.sh │ │ │ ├── make_priors.sh │ │ │ ├── pretrain_dbn.sh │ │ │ ├── train.sh │ │ │ ├── train_mmi.sh │ │ │ ├── train_mpe.sh │ │ │ └── train_scheduler.sh │ │ ├── nnet2/ │ │ │ ├── adjust_priors.sh │ │ │ ├── align.sh │ │ │ ├── check_ivectors_compatible.sh │ │ │ ├── convert_lda_to_raw.sh │ │ │ ├── convert_nnet1_to_nnet2.sh │ │ │ ├── create_appended_model.sh │ │ │ ├── decode.sh │ │ │ ├── dump_bottleneck_features.sh │ │ │ ├── get_egs.sh │ │ │ ├── get_egs2.sh │ │ │ ├── get_egs_discriminative2.sh │ │ │ ├── get_ivector_id.sh │ │ │ ├── get_lda.sh │ │ │ ├── get_lda_block.sh │ │ │ ├── get_perturbed_feats.sh │ │ │ ├── make_denlats.sh │ │ │ ├── make_multisplice_configs.py │ │ │ ├── relabel_egs.sh │ │ │ ├── relabel_egs2.sh │ │ │ ├── remove_egs.sh │ │ │ ├── retrain_fast.sh │ │ │ ├── retrain_simple2.sh │ │ │ ├── retrain_tanh.sh │ │ │ ├── train_block.sh │ │ │ ├── train_convnet_accel2.sh │ │ │ ├── train_discriminative.sh │ │ │ ├── train_discriminative2.sh │ │ │ ├── train_discriminative_multilang2.sh │ │ │ ├── train_more.sh │ │ │ ├── train_more2.sh │ │ │ ├── train_multilang2.sh │ │ │ ├── train_multisplice_accel2.sh │ │ │ ├── train_multisplice_ensemble.sh │ │ │ ├── train_pnorm.sh │ │ │ ├── train_pnorm_accel2.sh │ │ │ ├── train_pnorm_bottleneck_fast.sh │ │ │ ├── train_pnorm_ensemble.sh │ │ │ ├── train_pnorm_fast.sh │ │ │ ├── train_pnorm_multisplice.sh │ │ │ ├── train_pnorm_multisplice2.sh │ │ │ ├── train_pnorm_simple.sh │ │ │ ├── train_pnorm_simple2.sh │ │ │ ├── train_tanh.sh │ │ │ ├── train_tanh_bottleneck.sh │ │ │ ├── train_tanh_fast.sh │ │ │ └── update_nnet.sh │ │ ├── nnet3/ │ │ │ ├── adjust_priors.sh │ │ │ ├── align.sh │ │ │ ├── align_lats.sh │ │ │ ├── chain/ │ │ │ │ ├── align_lats.sh │ │ │ │ ├── build_tree.sh │ │ │ │ ├── build_tree_multiple_sources.sh │ │ │ │ ├── e2e/ │ │ │ │ │ ├── README.txt │ │ │ │ │ ├── compute_biphone_stats.py │ │ │ │ │ ├── get_egs_e2e.sh │ │ │ │ │ ├── prepare_e2e.sh │ │ │ │ │ ├── text_to_phones.py │ │ │ │ │ └── train_e2e.py │ │ │ │ ├── gen_topo.pl │ │ │ │ ├── gen_topo.py │ │ │ │ ├── gen_topo2.py │ │ │ │ ├── gen_topo3.py │ │ │ │ ├── gen_topo4.py │ │ │ │ ├── gen_topo5.py │ │ │ │ ├── gen_topo_orig.py │ │ │ │ ├── get_egs.sh │ │ │ │ ├── get_model_context.sh │ │ │ │ ├── get_phone_post.sh │ │ │ │ ├── make_weighted_den_fst.sh │ │ │ │ ├── multilingual/ │ │ │ │ │ └── combine_egs.sh │ │ │ │ ├── train.py │ │ │ │ └── train_tdnn.sh │ │ │ ├── chain2/ │ │ │ │ ├── combine_egs.sh │ │ │ │ ├── compute_preconditioning_matrix.sh │ │ │ │ ├── get_raw_egs.sh │ │ │ │ ├── internal/ │ │ │ │ │ ├── get_best_model.sh │ │ │ │ │ └── get_train_schedule.py │ │ │ │ ├── process_egs.sh │ │ │ │ ├── randomize_egs.sh │ │ │ │ ├── train.sh │ │ │ │ ├── validate_processed_egs.sh │ │ │ │ ├── validate_randomized_egs.sh │ │ │ │ └── validate_raw_egs.sh │ │ │ ├── components.py │ │ │ ├── compute_output.sh │ │ │ ├── convert_nnet2_to_nnet3.py │ │ │ ├── decode.sh │ │ │ ├── decode_grammar.sh │ │ │ ├── decode_lookahead.sh │ │ │ ├── decode_looped.sh │ │ │ ├── decode_score_fusion.sh │ │ │ ├── decode_semisup.sh │ │ │ ├── dot/ │ │ │ │ ├── descriptor_parser.py │ │ │ │ └── nnet3_to_dot.py │ │ │ ├── get_degs.sh │ │ │ ├── get_egs.sh │ │ │ ├── get_egs_discriminative.sh │ │ │ ├── get_egs_targets.sh │ │ │ ├── get_saturation.pl │ │ │ ├── get_successful_models.py │ │ │ ├── lstm/ │ │ │ │ ├── make_configs.py │ │ │ │ └── train.sh │ │ │ ├── make_bottleneck_features.sh │ │ │ ├── make_denlats.sh │ │ │ ├── make_tdnn_configs.py │ │ │ ├── multilingual/ │ │ │ │ ├── allocate_multilingual_examples.py │ │ │ │ └── combine_egs.sh │ │ │ ├── nnet3_to_dot.sh │ │ │ ├── report/ │ │ │ │ ├── convert_model.py │ │ │ │ ├── generate_plots.py │ │ │ │ └── summarize_compute_debug_timing.py │ │ │ ├── tdnn/ │ │ │ │ ├── make_configs.py │ │ │ │ ├── train.sh │ │ │ │ └── train_raw_nnet.sh │ │ │ ├── train_discriminative.sh │ │ │ ├── train_dnn.py │ │ │ ├── train_raw_dnn.py │ │ │ ├── train_raw_rnn.py │ │ │ ├── train_rnn.py │ │ │ ├── train_tdnn.sh │ │ │ ├── xconfig_to_config.py │ │ │ └── xconfig_to_configs.py │ │ ├── online/ │ │ │ ├── decode.sh │ │ │ ├── nnet2/ │ │ │ │ ├── align.sh │ │ │ │ ├── copy_data_dir.sh │ │ │ │ ├── copy_ivector_dir.sh │ │ │ │ ├── decode.sh │ │ │ │ ├── dump_nnet_activations.sh │ │ │ │ ├── extract_ivectors.sh │ │ │ │ ├── extract_ivectors_online.sh │ │ │ │ ├── get_egs.sh │ │ │ │ ├── get_egs2.sh │ │ │ │ ├── get_egs_discriminative2.sh │ │ │ │ ├── get_pca_transform.sh │ │ │ │ ├── make_denlats.sh │ │ │ │ ├── prepare_online_decoding.sh │ │ │ │ ├── prepare_online_decoding_retrain.sh │ │ │ │ ├── prepare_online_decoding_transfer.sh │ │ │ │ ├── train_diag_ubm.sh │ │ │ │ └── train_ivector_extractor.sh │ │ │ ├── nnet3/ │ │ │ │ ├── decode.sh │ │ │ │ ├── decode_wake_word.sh │ │ │ │ └── prepare_online_decoding.sh │ │ │ └── prepare_online_decoding.sh │ │ ├── oracle_wer.sh │ │ ├── overlap/ │ │ │ ├── get_overlap_segments.py │ │ │ ├── get_overlap_targets.py │ │ │ ├── output_to_rttm.py │ │ │ ├── post_process_output.sh │ │ │ └── prepare_overlap_graph.py │ │ ├── paste_feats.sh │ │ ├── pytorchnn/ │ │ │ ├── check_py.py │ │ │ ├── compute_sentence_scores.py │ │ │ ├── data.py │ │ │ ├── lmrescore_nbest_pytorchnn.sh │ │ │ ├── model.py │ │ │ └── train.py │ │ ├── resegment_data.sh │ │ ├── resegment_text.sh │ │ ├── rnnlmrescore.sh │ │ ├── scoring/ │ │ │ ├── score_kaldi_cer.sh │ │ │ ├── score_kaldi_compare.sh │ │ │ └── score_kaldi_wer.sh │ │ ├── search_index.sh │ │ ├── segmentation/ │ │ │ ├── ali_to_targets.sh │ │ │ ├── combine_targets_dirs.sh │ │ │ ├── convert_targets_dir_to_whole_recording.sh │ │ │ ├── convert_utt2spk_and_segments_to_rttm.py │ │ │ ├── copy_targets_dir.sh │ │ │ ├── decode_sad.sh │ │ │ ├── detect_speech_activity.sh │ │ │ ├── evaluate_segmentation.pl │ │ │ ├── get_targets_for_out_of_segments.sh │ │ │ ├── internal/ │ │ │ │ ├── arc_info_to_targets.py │ │ │ │ ├── find_oov_phone.py │ │ │ │ ├── get_default_targets_for_out_of_segments.py │ │ │ │ ├── get_transform_probs_mat.py │ │ │ │ ├── merge_segment_targets_to_recording.py │ │ │ │ ├── merge_targets.py │ │ │ │ ├── prepare_sad_graph.py │ │ │ │ ├── resample_targets.py │ │ │ │ ├── sad_to_segments.py │ │ │ │ └── verify_phones_list.py │ │ │ ├── lats_to_targets.sh │ │ │ ├── merge_targets_dirs.sh │ │ │ ├── post_process_sad_to_segments.sh │ │ │ ├── prepare_targets_gmm.sh │ │ │ ├── resample_targets_dir.sh │ │ │ └── validate_targets_dir.sh │ │ ├── select_feats.sh │ │ ├── shift_feats.sh │ │ ├── subset_ali_dir.sh │ │ ├── tandem/ │ │ │ ├── align_fmllr.sh │ │ │ ├── align_sgmm2.sh │ │ │ ├── align_si.sh │ │ │ ├── decode.sh │ │ │ ├── decode_fmllr.sh │ │ │ ├── decode_sgmm2.sh │ │ │ ├── make_denlats.sh │ │ │ ├── make_denlats_sgmm2.sh │ │ │ ├── mk_aslf_lda_mllt.sh │ │ │ ├── mk_aslf_sgmm2.sh │ │ │ ├── train_deltas.sh │ │ │ ├── train_lda_mllt.sh │ │ │ ├── train_mllt.sh │ │ │ ├── train_mmi.sh │ │ │ ├── train_mmi_sgmm2.sh │ │ │ ├── train_mono.sh │ │ │ ├── train_sat.sh │ │ │ ├── train_sgmm2.sh │ │ │ └── train_ubm.sh │ │ ├── tfrnnlm/ │ │ │ ├── check_py.py │ │ │ ├── check_tensorflow_installed.sh │ │ │ ├── lmrescore_rnnlm_lat.sh │ │ │ ├── lmrescore_rnnlm_lat_pruned.sh │ │ │ ├── lstm.py │ │ │ ├── lstm_fast.py │ │ │ ├── reader.py │ │ │ └── vanilla_rnnlm.py │ │ ├── train_deltas.sh │ │ ├── train_diag_ubm.sh │ │ ├── train_lda_mllt.sh │ │ ├── train_lvtln.sh │ │ ├── train_map.sh │ │ ├── train_mmi.sh │ │ ├── train_mmi_fmmi.sh │ │ ├── train_mmi_fmmi_indirect.sh │ │ ├── train_mmi_sgmm2.sh │ │ ├── train_mono.sh │ │ ├── train_mpe.sh │ │ ├── train_quick.sh │ │ ├── train_raw_sat.sh │ │ ├── train_sat.sh │ │ ├── train_sat_basis.sh │ │ ├── train_segmenter.sh │ │ ├── train_sgmm2.sh │ │ ├── train_sgmm2_group.sh │ │ ├── train_smbr.sh │ │ ├── train_ubm.sh │ │ └── word_align_lattices.sh │ └── utils/ │ ├── add_disambig.pl │ ├── add_lex_disambig.pl │ ├── analyze_segments.pl │ ├── apply_map.pl │ ├── best_wer.sh │ ├── build_const_arpa_lm.sh │ ├── combine_data.sh │ ├── convert_slf.pl │ ├── convert_slf_parallel.sh │ ├── copy_data_dir.sh │ ├── create_data_link.pl │ ├── create_split_dir.pl │ ├── ctm/ │ │ ├── convert_ctm.pl │ │ ├── fix_ctm.sh │ │ └── resolve_ctm_overlaps.py │ ├── data/ │ │ ├── combine_short_segments.sh │ │ ├── convert_data_dir_to_whole.sh │ │ ├── extend_segment_times.py │ │ ├── extract_wav_segments_data_dir.sh │ │ ├── fix_subsegment_feats.pl │ │ ├── get_allowed_durations.py │ │ ├── get_frame_shift.sh │ │ ├── get_num_frames.sh │ │ ├── get_reco2dur.sh │ │ ├── get_reco2utt_for_data.sh │ │ ├── get_segments_for_data.sh │ │ ├── get_uniform_subsegments.py │ │ ├── get_utt2dur.sh │ │ ├── get_utt2num_frames.sh │ │ ├── internal/ │ │ │ ├── choose_utts_to_combine.py │ │ │ ├── combine_segments_to_recording.py │ │ │ ├── modify_speaker_info.py │ │ │ └── perturb_volume.py │ │ ├── limit_feature_dim.sh │ │ ├── modify_speaker_info.sh │ │ ├── modify_speaker_info_to_recording.sh │ │ ├── normalize_data_range.pl │ │ ├── perturb_data_dir_speed_3way.sh │ │ ├── perturb_data_dir_volume.sh │ │ ├── perturb_speed_to_allowed_lengths.py │ │ ├── remove_dup_utts.sh │ │ ├── resample_data_dir.sh │ │ ├── shift_and_combine_feats.sh │ │ ├── shift_feats.sh │ │ └── subsegment_data_dir.sh │ ├── dict_dir_add_pronprobs.sh │ ├── eps2disambig.pl │ ├── filt.py │ ├── filter_scp.pl │ ├── filter_scps.pl │ ├── find_arpa_oovs.pl │ ├── fix_data_dir.sh │ ├── format_lm.sh │ ├── format_lm_sri.sh │ ├── gen_topo.pl │ ├── int2sym.pl │ ├── kwslist_post_process.pl │ ├── lang/ │ │ ├── add_unigrams_arpa.pl │ │ ├── adjust_unk_arpa.pl │ │ ├── adjust_unk_graph.sh │ │ ├── bpe/ │ │ │ ├── add_final_optional_silence.sh │ │ │ ├── apply_bpe.py │ │ │ ├── bidi.py │ │ │ ├── learn_bpe.py │ │ │ ├── prepend_words.py │ │ │ └── reverse.py │ │ ├── check_g_properties.pl │ │ ├── check_phones_compatible.sh │ │ ├── compute_sentence_probs_arpa.py │ │ ├── extend_lang.sh │ │ ├── get_word_position_phone_map.pl │ │ ├── grammar/ │ │ │ ├── augment_phones_txt.py │ │ │ └── augment_words_txt.py │ │ ├── internal/ │ │ │ ├── apply_unk_lm.sh │ │ │ ├── arpa2fst_constrained.py │ │ │ └── modify_unk_pron.py │ │ ├── limit_arpa_unk_history.py │ │ ├── make_kn_lm.py │ │ ├── make_lexicon_fst.py │ │ ├── make_lexicon_fst_silprob.py │ │ ├── make_phone_bigram_lang.sh │ │ ├── make_phone_lm.py │ │ ├── make_position_dependent_subword_lexicon.py │ │ ├── make_subword_lexicon_fst.py │ │ ├── make_unk_lm.sh │ │ └── validate_disambig_sym_file.pl │ ├── ln.pl │ ├── make_absolute.sh │ ├── make_lexicon_fst.pl │ ├── make_lexicon_fst_silprob.pl │ ├── make_unigram_grammar.pl │ ├── map_arpa_lm.pl │ ├── mkgraph.sh │ ├── mkgraph_lookahead.sh │ ├── nnet/ │ │ ├── gen_dct_mat.py │ │ ├── gen_hamm_mat.py │ │ ├── gen_splice.py │ │ ├── make_blstm_proto.py │ │ ├── make_cnn_proto.py │ │ ├── make_lstm_proto.py │ │ ├── make_nnet_proto.py │ │ └── subset_data_tr_cv.sh │ ├── nnet-cpu/ │ │ ├── make_nnet_config.pl │ │ ├── make_nnet_config_block.pl │ │ ├── make_nnet_config_preconditioned.pl │ │ └── update_learning_rates.pl │ ├── nnet3/ │ │ └── convert_config_tdnn_to_affine.py │ ├── parallel/ │ │ ├── limit_num_gpus.sh │ │ ├── pbs.pl │ │ ├── queue.pl │ │ ├── retry.pl │ │ ├── run.pl │ │ └── slurm.pl │ ├── parse_options.sh │ ├── perturb_data_dir_speed.sh │ ├── pinyin_map.pl │ ├── prepare_extended_lang.sh │ ├── prepare_lang.sh │ ├── prepare_online_nnet_dist_build.sh │ ├── remove_data_links.sh │ ├── remove_oovs.pl │ ├── reverse_arpa.py │ ├── rnnlm_compute_scores.sh │ ├── s2eps.pl │ ├── scoring/ │ │ ├── wer_ops_details.pl │ │ ├── wer_per_spk_details.pl │ │ ├── wer_per_utt_details.pl │ │ └── wer_report.pl │ ├── segmentation.pl │ ├── show_lattice.sh │ ├── shuffle_list.pl │ ├── spk2utt_to_utt2spk.pl │ ├── split_data.sh │ ├── split_scp.pl │ ├── ssh.pl │ ├── subset_data_dir.sh │ ├── subset_scp.pl │ ├── subword/ │ │ ├── prepare_lang_subword.sh │ │ └── prepare_subword_text.sh │ ├── summarize_logs.pl │ ├── summarize_warnings.pl │ ├── sym2int.pl │ ├── utt2spk_to_spk2utt.pl │ ├── validate_data_dir.sh │ ├── validate_dict_dir.pl │ ├── validate_lang.pl │ ├── validate_text.pl │ └── write_kwslist.pl ├── env/ │ └── build_env.sh ├── kaldi ├── lm/ │ ├── __init__.py │ ├── chainer_backend/ │ │ ├── __init__.py │ │ ├── extlm.py │ │ └── lm.py │ ├── lm_utils.py │ └── pytorch_backend/ │ ├── __init__.py │ ├── extlm.py │ └── lm.py ├── mt/ │ ├── __init__.py │ ├── mt_utils.py │ └── pytorch_backend/ │ ├── __init__.py │ └── mt.py ├── nets/ │ ├── __init__.py │ ├── asr_interface.py │ ├── batch_beam_search.py │ ├── batch_beam_search_online_sim.py │ ├── beam_search.py │ ├── beam_search_transducer.py │ ├── chainer_backend/ │ │ ├── __init__.py │ │ ├── asr_interface.py │ │ ├── ctc.py │ │ ├── deterministic_embed_id.py │ │ ├── e2e_asr.py │ │ ├── e2e_asr_transformer.py │ │ ├── nets_utils.py │ │ ├── rnn/ │ │ │ ├── __init__.py │ │ │ ├── attentions.py │ │ │ ├── decoders.py │ │ │ ├── encoders.py │ │ │ └── training.py │ │ └── transformer/ │ │ ├── __init__.py │ │ ├── attention.py │ │ ├── ctc.py │ │ ├── decoder.py │ │ ├── decoder_layer.py │ │ ├── embedding.py │ │ ├── encoder.py │ │ ├── encoder_layer.py │ │ ├── label_smoothing_loss.py │ │ ├── layer_norm.py │ │ ├── mask.py │ │ ├── positionwise_feed_forward.py │ │ ├── subsampling.py │ │ └── training.py │ ├── ctc_prefix_score.py │ ├── e2e_asr_common.py │ ├── e2e_mt_common.py │ ├── lm_interface.py │ ├── mt_interface.py │ ├── pytorch_backend/ │ │ ├── __init__.py │ │ ├── conformer/ │ │ │ ├── __init__.py │ │ │ ├── argument.py │ │ │ ├── convolution.py │ │ │ ├── encoder.py │ │ │ ├── encoder_layer.py │ │ │ └── swish.py │ │ ├── ctc.py │ │ ├── e2e_asr.py │ │ ├── e2e_asr_conformer.py │ │ ├── e2e_asr_maskctc.py │ │ ├── e2e_asr_mix.py │ │ ├── e2e_asr_mix_transformer.py │ │ ├── e2e_asr_mulenc.py │ │ ├── e2e_asr_transducer.py │ │ ├── e2e_asr_transducer_cs.py │ │ ├── e2e_asr_transformer.py │ │ ├── e2e_mt.py │ │ ├── e2e_mt_transformer.py │ │ ├── e2e_st.py │ │ ├── e2e_st_conformer.py │ │ ├── e2e_st_transformer.py │ │ ├── e2e_tts_fastspeech.py │ │ ├── e2e_tts_tacotron2.py │ │ ├── e2e_tts_transformer.py │ │ ├── e2e_vc_tacotron2.py │ │ ├── e2e_vc_transformer.py │ │ ├── fastspeech/ │ │ │ ├── __init__.py │ │ │ ├── duration_calculator.py │ │ │ ├── duration_predictor.py │ │ │ └── length_regulator.py │ │ ├── frontends/ │ │ │ ├── __init__.py │ │ │ ├── beamformer.py │ │ │ ├── dnn_beamformer.py │ │ │ ├── dnn_wpe.py │ │ │ ├── feature_transform.py │ │ │ ├── frontend.py │ │ │ └── mask_estimator.py │ │ ├── gtn_ctc.py │ │ ├── initialization.py │ │ ├── lm/ │ │ │ ├── __init__.py │ │ │ ├── default.py │ │ │ ├── seq_rnn.py │ │ │ └── transformer.py │ │ ├── maskctc/ │ │ │ ├── __init__.py │ │ │ ├── add_mask_token.py │ │ │ └── mask.py │ │ ├── nets_utils.py │ │ ├── rnn/ │ │ │ ├── __init__.py │ │ │ ├── argument.py │ │ │ ├── attentions.py │ │ │ ├── decoders.py │ │ │ └── encoders.py │ │ ├── streaming/ │ │ │ ├── __init__.py │ │ │ ├── segment.py │ │ │ └── window.py │ │ ├── tacotron2/ │ │ │ ├── __init__.py │ │ │ ├── cbhg.py │ │ │ ├── decoder.py │ │ │ └── encoder.py │ │ ├── transducer/ │ │ │ ├── __init__.py │ │ │ ├── arguments.py │ │ │ ├── auxiliary_task.py │ │ │ ├── blocks.py │ │ │ ├── causal_conv1d.py │ │ │ ├── custom_decoder.py │ │ │ ├── custom_encoder.py │ │ │ ├── error_calculator.py │ │ │ ├── initializer.py │ │ │ ├── joint_network.py │ │ │ ├── loss.py │ │ │ ├── rnn_decoder.py │ │ │ ├── rnn_encoder.py │ │ │ ├── tdnn.py │ │ │ ├── transformer_decoder_layer.py │ │ │ ├── utils.py │ │ │ └── vgg2l.py │ │ ├── transformer/ │ │ │ ├── __init__.py │ │ │ ├── add_sos_eos.py │ │ │ ├── argument.py │ │ │ ├── attention.py │ │ │ ├── contextual_block_encoder_layer.py │ │ │ ├── decoder.py │ │ │ ├── decoder_layer.py │ │ │ ├── dynamic_conv.py │ │ │ ├── dynamic_conv2d.py │ │ │ ├── embedding.py │ │ │ ├── encoder.py │ │ │ ├── encoder_layer.py │ │ │ ├── encoder_mix.py │ │ │ ├── initializer.py │ │ │ ├── label_smoothing_loss.py │ │ │ ├── layer_norm.py │ │ │ ├── lightconv.py │ │ │ ├── lightconv2d.py │ │ │ ├── mask.py │ │ │ ├── multi_layer_conv.py │ │ │ ├── optimizer.py │ │ │ ├── plot.py │ │ │ ├── positionwise_feed_forward.py │ │ │ ├── repeat.py │ │ │ ├── sgd_optimizer.py │ │ │ ├── subsampling.py │ │ │ └── subsampling_without_posenc.py │ │ └── wavenet.py │ ├── scorer_interface.py │ ├── scorers/ │ │ ├── .mmi_rnnt_scorer.py.swp │ │ ├── __init__.py │ │ ├── _mmi_utils.py │ │ ├── ctc.py │ │ ├── ctc_rnnt_scorer.py │ │ ├── length_bonus.py │ │ ├── lookahead.py │ │ ├── mmi.py │ │ ├── mmi_alignment_score.py │ │ ├── mmi_frame_prefix_scorer.py │ │ ├── mmi_frame_scorer.py │ │ ├── mmi_frame_scorer_trace.py │ │ ├── mmi_lookahead.py │ │ ├── mmi_lookahead_bak.py │ │ ├── mmi_lookahead_split.py │ │ ├── mmi_prefix_score.py │ │ ├── mmi_rescorer.py │ │ ├── mmi_rnnt_lookahead_scorer.py │ │ ├── mmi_rnnt_scorer.py │ │ ├── mmi_utils.py │ │ ├── new_mmi_frame_scorer.py │ │ ├── ngram.py │ │ ├── sorted_matcher.py │ │ ├── test.py │ │ ├── tlg_scorer.py │ │ ├── trace_frame.py │ │ └── word_ngram.py │ ├── st_interface.py │ ├── transducer_decoder_interface.py │ └── tts_interface.py ├── optimizer/ │ ├── __init__.py │ ├── chainer.py │ ├── factory.py │ ├── parser.py │ └── pytorch.py ├── scheduler/ │ ├── __init__.py │ ├── chainer.py │ ├── pytorch.py │ └── scheduler.py ├── snowfall/ │ ├── __init__.py │ ├── common.py │ ├── data/ │ │ ├── __init__.py │ │ ├── aishell.py │ │ ├── asr_datamodule.py │ │ ├── datamodule.py │ │ └── librispeech.py │ ├── decoding/ │ │ ├── __init__.py │ │ ├── graph.py │ │ └── lm_rescore.py │ ├── dist.py │ ├── lexicon.py │ ├── models/ │ │ ├── __init__.py │ │ ├── conformer.py │ │ ├── contextnet.py │ │ ├── interface.py │ │ ├── tdnn.py │ │ ├── tdnn_lstm.py │ │ ├── tdnnf.py │ │ └── transformer.py │ ├── objectives/ │ │ ├── __init__.py │ │ ├── common.py │ │ ├── ctc.py │ │ └── mmi.py │ ├── training/ │ │ ├── __init__.py │ │ ├── ctc_graph.py │ │ ├── diagnostics.py │ │ ├── mmi_graph.py │ │ └── mmi_mbr_graph.py │ └── warpper/ │ ├── k2_decode.py │ ├── mmi_test.py │ ├── mmi_utils.py │ ├── prefix_scorer.py │ ├── warpper_ctc.py │ └── warpper_mmi.py ├── st/ │ ├── __init__.py │ └── pytorch_backend/ │ ├── __init__.py │ └── st.py ├── transform/ │ ├── __init__.py │ ├── add_deltas.py │ ├── channel_selector.py │ ├── cmvn.py │ ├── functional.py │ ├── perturb.py │ ├── spec_augment.py │ ├── spectrogram.py │ ├── transform_interface.py │ ├── transformation.py │ └── wpe.py ├── tts/ │ ├── __init__.py │ └── pytorch_backend/ │ ├── __init__.py │ └── tts.py ├── utils/ │ ├── __init__.py │ ├── bmuf.py │ ├── check_kwargs.py │ ├── cli_readers.py │ ├── cli_utils.py │ ├── cli_writers.py │ ├── dataset.py │ ├── deterministic_utils.py │ ├── draw_num_fst.py │ ├── dynamic_import.py │ ├── fill_missing_args.py │ ├── io_utils.py │ ├── parse_decoding_process.py │ ├── parse_npy.py │ ├── print.py │ ├── rtf_calculator.py │ ├── sampler.py │ ├── spec_augment.py │ └── training/ │ ├── __init__.py │ ├── batchfy.py │ ├── evaluator.py │ ├── iterators.py │ ├── tensorboard_logger.py │ └── train_utils.py ├── vc/ │ └── pytorch_backend/ │ └── vc.py └── version.txt