gitextract_liiwo2a9/ ├── .gitignore ├── README.md ├── bash/ │ ├── blending_n_postprocessing.sh │ ├── download_all_model_ckpts_for_inference.sh │ ├── download_comp_data.sh │ ├── inference/ │ │ ├── model1_inference.sh │ │ ├── model2_inference.sh │ │ ├── model3_inference.sh │ │ ├── model4_inference.sh │ │ └── run_inference.sh │ ├── pseudo/ │ │ ├── create_all_pseudo_labels.sh │ │ ├── create_all_pseudo_labels_toy.sh │ │ ├── create_pseudo_base.sh │ │ ├── create_pseudo_base_pretrained.sh │ │ ├── create_pseudo_large.sh │ │ ├── train_base.sh │ │ ├── train_base_pretrained.sh │ │ └── train_large.sh │ ├── setup.sh │ └── training/ │ ├── load_roberta_weights.sh │ ├── train1a_prepare_stackx_data.sh │ ├── train1b_train_bert_stackx_lang_model.sh │ ├── train2_pseudo_labels.sh │ ├── train3_bert_base_cased_stackx_pretrained.sh │ ├── train4_bert_base_cased_stackx_with_pseudo_labels.sh │ ├── train5_roberta_with_pseudo_labels.sh │ └── train6_bart_with_pseudo_labels.sh ├── experiments/ │ ├── 1-8-5-head_tail-pseudonoleakrandom100k-1e-05-210-260-500-26-200/ │ │ ├── command │ │ ├── commit_hash │ │ └── config.json │ ├── 2-4-5-head_tail-pseudonoleakrandom100k-1e-05-210-260-500-26-roberta-200/ │ │ ├── command │ │ ├── commit_hash │ │ └── config.json │ ├── 2-4-roberta-base-saved-5-head_tail-roberta-stackx-base-v2-pl1kksample20k-1e-05-210-260-500-26-roberta-200/ │ │ ├── config.json │ │ └── config_train.json │ └── 4-2-5-head_tail-bart-2e-05-210-260-500-26-split_pseudo-250/ │ ├── command │ ├── commit_hash │ └── config.json ├── input/ │ ├── google-quest-challenge/ │ │ ├── sample_submission_toy.csv │ │ ├── test_toy.csv │ │ └── train_toy.csv │ ├── qa_stackexchange_cleaned.csv │ ├── qa_stackexchange_cleaned_toy.csv │ └── stackx-base-cased/ │ ├── config.json │ ├── stackx-base-cased-config.json │ ├── stackx-base-cased-vocab.txt │ ├── training_log.csv │ └── vocab.txt ├── packages/ │ ├── fairseq-hacked/ │ │ ├── .gitignore │ │ ├── CODE_OF_CONDUCT.md │ │ ├── CONTRIBUTING.md │ │ ├── LICENSE │ │ ├── README.md │ │ ├── docs/ │ │ │ ├── Makefile │ │ │ ├── _static/ │ │ │ │ └── theme_overrides.css │ │ │ ├── command_line_tools.rst │ │ │ ├── conf.py │ │ │ ├── criterions.rst │ │ │ ├── data.rst │ │ │ ├── docutils.conf │ │ │ ├── getting_started.rst │ │ │ ├── index.rst │ │ │ ├── lr_scheduler.rst │ │ │ ├── make.bat │ │ │ ├── models.rst │ │ │ ├── modules.rst │ │ │ ├── optim.rst │ │ │ ├── overview.rst │ │ │ ├── requirements.txt │ │ │ ├── tasks.rst │ │ │ ├── tutorial_classifying_names.rst │ │ │ └── tutorial_simple_lstm.rst │ │ ├── eval_lm.py │ │ ├── examples/ │ │ │ ├── .gitignore │ │ │ ├── __init__.py │ │ │ ├── backtranslation/ │ │ │ │ └── README.md │ │ │ ├── bart/ │ │ │ │ ├── README.cnn.md │ │ │ │ ├── README.glue.md │ │ │ │ └── README.md │ │ │ ├── camembert/ │ │ │ │ └── README.md │ │ │ ├── conv_seq2seq/ │ │ │ │ └── README.md │ │ │ ├── cross_lingual_language_model/ │ │ │ │ └── README.md │ │ │ ├── joint_alignment_translation/ │ │ │ │ ├── README.md │ │ │ │ └── prepare-wmt18en2de_no_norm_no_escape_no_agressive.sh │ │ │ ├── language_model/ │ │ │ │ ├── README.md │ │ │ │ ├── conv_lm/ │ │ │ │ │ └── README.md │ │ │ │ ├── prepare-wikitext-103.sh │ │ │ │ └── transformer_lm/ │ │ │ │ └── README.md │ │ │ ├── layerdrop/ │ │ │ │ └── README.md │ │ │ ├── noisychannel/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── rerank.py │ │ │ │ ├── rerank_generate.py │ │ │ │ ├── rerank_options.py │ │ │ │ ├── rerank_score_bw.py │ │ │ │ ├── rerank_score_lm.py │ │ │ │ ├── rerank_tune.py │ │ │ │ └── rerank_utils.py │ │ │ ├── nonautoregressive_translation/ │ │ │ │ ├── README.md │ │ │ │ └── scripts.md │ │ │ ├── pay_less_attention_paper/ │ │ │ │ └── README.md │ │ │ ├── roberta/ │ │ │ │ ├── README.custom_classification.md │ │ │ │ ├── README.glue.md │ │ │ │ ├── README.md │ │ │ │ ├── README.pretraining.md │ │ │ │ ├── README.race.md │ │ │ │ ├── commonsense_qa/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── commonsense_qa_task.py │ │ │ │ │ └── download_cqa_data.sh │ │ │ │ ├── multiprocessing_bpe_encoder.py │ │ │ │ ├── preprocess_GLUE_tasks.sh │ │ │ │ ├── preprocess_RACE.py │ │ │ │ ├── preprocess_RACE.sh │ │ │ │ └── wsc/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── wsc_criterion.py │ │ │ │ ├── wsc_task.py │ │ │ │ └── wsc_utils.py │ │ │ ├── scaling_nmt/ │ │ │ │ └── README.md │ │ │ ├── speech_recognition/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── criterions/ │ │ │ │ │ ├── ASG_loss.py │ │ │ │ │ ├── CTC_loss.py │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── cross_entropy_acc.py │ │ │ │ ├── datasets/ │ │ │ │ │ ├── asr_prep_json.py │ │ │ │ │ └── prepare-librispeech.sh │ │ │ │ ├── infer.py │ │ │ │ ├── models/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── vggtransformer.py │ │ │ │ │ └── w2l_conv_glu_enc.py │ │ │ │ ├── tasks/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── speech_recognition.py │ │ │ │ ├── utils/ │ │ │ │ │ └── wer_utils.py │ │ │ │ └── w2l_decoder.py │ │ │ ├── stories/ │ │ │ │ └── README.md │ │ │ ├── translation/ │ │ │ │ ├── README.md │ │ │ │ ├── prepare-iwslt14.sh │ │ │ │ ├── prepare-iwslt17-multilingual.sh │ │ │ │ ├── prepare-wmt14en2de.sh │ │ │ │ └── prepare-wmt14en2fr.sh │ │ │ ├── translation_moe/ │ │ │ │ ├── README.md │ │ │ │ └── score.py │ │ │ ├── wav2vec/ │ │ │ │ └── README.md │ │ │ ├── wmt19/ │ │ │ │ └── README.md │ │ │ └── xlmr/ │ │ │ └── README.md │ │ ├── fairseq/ │ │ │ ├── __init__.py │ │ │ ├── binarizer.py │ │ │ ├── bleu.py │ │ │ ├── checkpoint_utils.py │ │ │ ├── clib/ │ │ │ │ ├── libbleu/ │ │ │ │ │ ├── libbleu.cpp │ │ │ │ │ └── module.cpp │ │ │ │ └── libnat/ │ │ │ │ └── edit_dist.cpp │ │ │ ├── criterions/ │ │ │ │ ├── __init__.py │ │ │ │ ├── adaptive_loss.py │ │ │ │ ├── binary_cross_entropy.py │ │ │ │ ├── composite_loss.py │ │ │ │ ├── cross_entropy.py │ │ │ │ ├── fairseq_criterion.py │ │ │ │ ├── label_smoothed_cross_entropy.py │ │ │ │ ├── label_smoothed_cross_entropy_with_alignment.py │ │ │ │ ├── legacy_masked_lm.py │ │ │ │ ├── masked_lm.py │ │ │ │ ├── nat_loss.py │ │ │ │ ├── sentence_prediction.py │ │ │ │ └── sentence_ranking.py │ │ │ ├── distributed_utils.py │ │ │ ├── file_utils.py │ │ │ ├── hub_utils.py │ │ │ ├── iterative_refinement_generator.py │ │ │ ├── legacy_distributed_data_parallel.py │ │ │ ├── meters.py │ │ │ ├── models/ │ │ │ │ ├── __init__.py │ │ │ │ ├── bart/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── hub_interface.py │ │ │ │ │ └── model.py │ │ │ │ ├── cmlm_transformer.py │ │ │ │ ├── composite_encoder.py │ │ │ │ ├── distributed_fairseq_model.py │ │ │ │ ├── fairseq_decoder.py │ │ │ │ ├── fairseq_encoder.py │ │ │ │ ├── fairseq_incremental_decoder.py │ │ │ │ ├── fairseq_model.py │ │ │ │ ├── fconv.py │ │ │ │ ├── fconv_lm.py │ │ │ │ ├── fconv_self_att.py │ │ │ │ ├── insertion_transformer.py │ │ │ │ ├── iterative_nonautoregressive_transformer.py │ │ │ │ ├── levenshtein_transformer.py │ │ │ │ ├── lightconv.py │ │ │ │ ├── lightconv_lm.py │ │ │ │ ├── lstm.py │ │ │ │ ├── masked_lm.py │ │ │ │ ├── model_utils.py │ │ │ │ ├── multilingual_transformer.py │ │ │ │ ├── nonautoregressive_ensembles.py │ │ │ │ ├── nonautoregressive_transformer.py │ │ │ │ ├── roberta/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── alignment_utils.py │ │ │ │ │ ├── hub_interface.py │ │ │ │ │ └── model.py │ │ │ │ ├── transformer.py │ │ │ │ ├── transformer_from_pretrained_xlm.py │ │ │ │ ├── transformer_lm.py │ │ │ │ └── wav2vec.py │ │ │ ├── modules/ │ │ │ │ ├── __init__.py │ │ │ │ ├── adaptive_input.py │ │ │ │ ├── adaptive_softmax.py │ │ │ │ ├── beamable_mm.py │ │ │ │ ├── character_token_embedder.py │ │ │ │ ├── conv_tbc.py │ │ │ │ ├── cuda_utils.cu │ │ │ │ ├── downsampled_multihead_attention.py │ │ │ │ ├── dynamic_convolution.py │ │ │ │ ├── dynamicconv_layer/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── cuda_function_gen.py │ │ │ │ │ ├── dynamicconv_cuda.cpp │ │ │ │ │ ├── dynamicconv_cuda.cuh │ │ │ │ │ ├── dynamicconv_cuda_kernel.cu │ │ │ │ │ ├── dynamicconv_layer.py │ │ │ │ │ ├── dynamiconv_cpu.cpp │ │ │ │ │ └── setup.py │ │ │ │ ├── gelu.py │ │ │ │ ├── grad_multiply.py │ │ │ │ ├── highway.py │ │ │ │ ├── layer_norm.py │ │ │ │ ├── learned_positional_embedding.py │ │ │ │ ├── lightconv_layer/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── cuda_function_gen.py │ │ │ │ │ ├── lightconv_cuda.cpp │ │ │ │ │ ├── lightconv_cuda.cuh │ │ │ │ │ ├── lightconv_cuda_kernel.cu │ │ │ │ │ ├── lightconv_layer.py │ │ │ │ │ └── setup.py │ │ │ │ ├── lightweight_convolution.py │ │ │ │ ├── linearized_convolution.py │ │ │ │ ├── logsumexp_moe.py │ │ │ │ ├── mean_pool_gating_network.py │ │ │ │ ├── multihead_attention.py │ │ │ │ ├── positional_embedding.py │ │ │ │ ├── scalar_bias.py │ │ │ │ ├── sinusoidal_positional_embedding.py │ │ │ │ ├── sparse_multihead_attention.py │ │ │ │ ├── sparse_transformer_sentence_encoder.py │ │ │ │ ├── sparse_transformer_sentence_encoder_layer.py │ │ │ │ ├── transformer_layer.py │ │ │ │ ├── transformer_sentence_encoder.py │ │ │ │ ├── transformer_sentence_encoder_layer.py │ │ │ │ ├── unfold.py │ │ │ │ └── vggblock.py │ │ │ ├── optim/ │ │ │ │ ├── __init__.py │ │ │ │ ├── adadelta.py │ │ │ │ ├── adafactor.py │ │ │ │ ├── adagrad.py │ │ │ │ ├── adam.py │ │ │ │ ├── adamax.py │ │ │ │ ├── bmuf.py │ │ │ │ ├── fairseq_optimizer.py │ │ │ │ ├── fp16_optimizer.py │ │ │ │ ├── lr_scheduler/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── cosine_lr_scheduler.py │ │ │ │ │ ├── fairseq_lr_scheduler.py │ │ │ │ │ ├── fixed_schedule.py │ │ │ │ │ ├── inverse_square_root_schedule.py │ │ │ │ │ ├── polynomial_decay_schedule.py │ │ │ │ │ ├── reduce_lr_on_plateau.py │ │ │ │ │ ├── tri_stage_lr_scheduler.py │ │ │ │ │ └── triangular_lr_scheduler.py │ │ │ │ ├── nag.py │ │ │ │ └── sgd.py │ │ │ ├── options.py │ │ │ ├── pdb.py │ │ │ ├── progress_bar.py │ │ │ ├── registry.py │ │ │ ├── search.py │ │ │ ├── sequence_generator.py │ │ │ ├── sequence_scorer.py │ │ │ ├── tasks/ │ │ │ │ ├── __init__.py │ │ │ │ ├── audio_pretraining.py │ │ │ │ ├── cross_lingual_lm.py │ │ │ │ ├── denoising.py │ │ │ │ ├── fairseq_task.py │ │ │ │ ├── language_modeling.py │ │ │ │ ├── legacy_masked_lm.py │ │ │ │ ├── masked_lm.py │ │ │ │ ├── multilingual_masked_lm.py │ │ │ │ ├── multilingual_translation.py │ │ │ │ ├── semisupervised_translation.py │ │ │ │ ├── sentence_prediction.py │ │ │ │ ├── sentence_ranking.py │ │ │ │ ├── translation.py │ │ │ │ ├── translation_from_pretrained_xlm.py │ │ │ │ ├── translation_lev.py │ │ │ │ └── translation_moe.py │ │ │ ├── tokenizer.py │ │ │ ├── trainer.py │ │ │ └── utils.py │ │ ├── fairseq_cli/ │ │ │ ├── __init__.py │ │ │ ├── eval_lm.py │ │ │ ├── generate.py │ │ │ ├── interactive.py │ │ │ ├── preprocess.py │ │ │ ├── score.py │ │ │ ├── setup.py │ │ │ └── train.py │ │ ├── generate.py │ │ ├── hubconf.py │ │ ├── interactive.py │ │ ├── preprocess.py │ │ ├── score.py │ │ ├── scripts/ │ │ │ ├── __init__.py │ │ │ ├── average_checkpoints.py │ │ │ ├── build_sym_alignment.py │ │ │ ├── compare_namespaces.py │ │ │ ├── compound_split_bleu.sh │ │ │ ├── convert_dictionary.lua │ │ │ ├── convert_model.lua │ │ │ ├── count_docs.py │ │ │ ├── read_binarized.py │ │ │ ├── rm_pt.py │ │ │ ├── sacrebleu_pregen.sh │ │ │ ├── shard_docs.py │ │ │ ├── split_train_valid_docs.py │ │ │ ├── spm_decode.py │ │ │ ├── spm_encode.py │ │ │ ├── spm_train.py │ │ │ ├── wav2vec_featurize.py │ │ │ └── wav2vec_manifest.py │ │ ├── setup.py │ │ ├── tests/ │ │ │ ├── __init__.py │ │ │ ├── speech_recognition/ │ │ │ │ ├── __init__.py │ │ │ │ ├── asr_test_base.py │ │ │ │ ├── test_collaters.py │ │ │ │ ├── test_cross_entropy.py │ │ │ │ └── test_vggtransformer.py │ │ │ ├── test_average_checkpoints.py │ │ │ ├── test_backtranslation_dataset.py │ │ │ ├── test_binaries.py │ │ │ ├── test_bmuf.py │ │ │ ├── test_character_token_embedder.py │ │ │ ├── test_concat_dataset.py │ │ │ ├── test_convtbc.py │ │ │ ├── test_dictionary.py │ │ │ ├── test_iterators.py │ │ │ ├── test_label_smoothing.py │ │ │ ├── test_memory_efficient_fp16.py │ │ │ ├── test_multi_corpus_sampled_dataset.py │ │ │ ├── test_multihead_attention.py │ │ │ ├── test_noising.py │ │ │ ├── test_reproducibility.py │ │ │ ├── test_resampling_dataset.py │ │ │ ├── test_sequence_generator.py │ │ │ ├── test_sequence_scorer.py │ │ │ ├── test_sparse_multihead_attention.py │ │ │ ├── test_token_block_dataset.py │ │ │ ├── test_train.py │ │ │ ├── test_utils.py │ │ │ └── utils.py │ │ ├── train.py │ │ └── validate.py │ └── gpt2bpe/ │ ├── encoder.json │ └── vocab.bpe ├── requirements_full.txt ├── requirements_minimal.txt ├── step11_final/ │ └── blending_n_postprocessing.py ├── step1_lm_finetuning/ │ ├── callbacks.py │ ├── data/ │ │ ├── __init__.py │ │ ├── augmentation/ │ │ │ ├── __init__.py │ │ │ └── tokenization.py │ │ ├── config.json │ │ ├── dataset.py │ │ ├── folds.csv │ │ ├── group_kf_folds.csv │ │ ├── make_folds.py │ │ ├── sampler.py │ │ └── vocab.txt │ ├── data_preparation/ │ │ ├── clean_stack_exchange_qa.py │ │ ├── clean_stackexchange_QA_demonstration.ipynb │ │ ├── download_and_process_stackexchange_dump_demonstration.ipynb │ │ └── scrape_stack_exchange.py │ ├── train_stackx_lm.py │ └── utils.py ├── step2_pseudo_labeling/ │ ├── bert-base/ │ │ ├── apply_swa.py │ │ ├── args.py │ │ ├── dataset.py │ │ ├── evaluation.py │ │ ├── infer.py │ │ ├── infer_pseudo.py │ │ ├── loops.py │ │ ├── misc.py │ │ ├── model.py │ │ └── run.py │ ├── bert-base-pretrained/ │ │ ├── apply_swa.py │ │ ├── args.py │ │ ├── dataset.py │ │ ├── evaluation.py │ │ ├── infer.py │ │ ├── infer_pseudo.py │ │ ├── loops.py │ │ ├── misc.py │ │ ├── model.py │ │ └── run.py │ ├── bert-large/ │ │ ├── apply_swa.py │ │ ├── args.py │ │ ├── dataset.py │ │ ├── evaluation.py │ │ ├── infer.py │ │ ├── infer_pseudo.py │ │ ├── loops.py │ │ ├── misc.py │ │ ├── model.py │ │ └── run.py │ └── blend_pseudo.py ├── step3_model1_bert_code/ │ ├── bert.py │ ├── callbacks.py │ ├── data/ │ │ ├── __init__.py │ │ ├── augmentation/ │ │ │ ├── __init__.py │ │ │ └── tokenization.py │ │ ├── dataset.py │ │ ├── folds.csv │ │ ├── group_kf_folds.csv │ │ ├── make_folds.py │ │ └── sampler.py │ ├── metrics.py │ ├── models.py │ ├── schedule.py │ ├── train.py │ └── utils.py ├── step4_model2_bert_code/ │ ├── apply_swa.py │ ├── args.py │ ├── dataset.py │ ├── evaluation.py │ ├── infer.py │ ├── loops.py │ ├── misc.py │ ├── model.py │ └── run.py ├── step5_model3_roberta_code/ │ ├── args.py │ ├── augmentation.py │ ├── dataset.py │ ├── evaluation.py │ ├── infer.py │ ├── loops.py │ ├── misc.py │ ├── model.py │ └── run.py ├── step6_model4_bart_code/ │ ├── apply_swa.py │ ├── args.py │ ├── dataset.py │ ├── evaluation.py │ ├── infer.py │ ├── loops.py │ ├── misc.py │ ├── model.py │ └── run.py ├── steps7_10_inference/ │ ├── model1_bert_code/ │ │ ├── callbacks.py │ │ ├── data/ │ │ │ ├── __init__.py │ │ │ ├── augmentation/ │ │ │ │ ├── __init__.py │ │ │ │ └── tokenization.py │ │ │ ├── dataset.py │ │ │ ├── folds.csv │ │ │ ├── group_kf_folds.csv │ │ │ ├── make_folds.py │ │ │ └── sampler.py │ │ ├── metrics.py │ │ ├── models.py │ │ ├── predict_test.py │ │ ├── schedule.py │ │ └── utils.py │ ├── model2_bert_code/ │ │ ├── args.py │ │ ├── dataset.py │ │ ├── loops.py │ │ ├── model.py │ │ └── run.py │ ├── model3_roberta_code/ │ │ ├── args.py │ │ ├── augmentation.py │ │ ├── dataset.py │ │ ├── evaluation.py │ │ ├── infer.py │ │ ├── loops.py │ │ ├── misc.py │ │ ├── model.py │ │ └── run.py │ └── model4_bart_code/ │ ├── args.py │ ├── dataset.py │ ├── loops.py │ ├── model.py │ └── run.py └── submissions/ ├── model1_submission.csv ├── model2_bert_base_cased_pred.csv ├── model3_roberta-base-output/ │ ├── fold-0.csv │ ├── fold-1.csv │ ├── fold-2.csv │ ├── fold-3.csv │ └── fold-4.csv ├── model4_bart_large_pred.csv └── submission.csv