gitextract_liiwo2a9/

├── .gitignore
├── README.md
├── bash/
│   ├── blending_n_postprocessing.sh
│   ├── download_all_model_ckpts_for_inference.sh
│   ├── download_comp_data.sh
│   ├── inference/
│   │   ├── model1_inference.sh
│   │   ├── model2_inference.sh
│   │   ├── model3_inference.sh
│   │   ├── model4_inference.sh
│   │   └── run_inference.sh
│   ├── pseudo/
│   │   ├── create_all_pseudo_labels.sh
│   │   ├── create_all_pseudo_labels_toy.sh
│   │   ├── create_pseudo_base.sh
│   │   ├── create_pseudo_base_pretrained.sh
│   │   ├── create_pseudo_large.sh
│   │   ├── train_base.sh
│   │   ├── train_base_pretrained.sh
│   │   └── train_large.sh
│   ├── setup.sh
│   └── training/
│       ├── load_roberta_weights.sh
│       ├── train1a_prepare_stackx_data.sh
│       ├── train1b_train_bert_stackx_lang_model.sh
│       ├── train2_pseudo_labels.sh
│       ├── train3_bert_base_cased_stackx_pretrained.sh
│       ├── train4_bert_base_cased_stackx_with_pseudo_labels.sh
│       ├── train5_roberta_with_pseudo_labels.sh
│       └── train6_bart_with_pseudo_labels.sh
├── experiments/
│   ├── 1-8-5-head_tail-pseudonoleakrandom100k-1e-05-210-260-500-26-200/
│   │   ├── command
│   │   ├── commit_hash
│   │   └── config.json
│   ├── 2-4-5-head_tail-pseudonoleakrandom100k-1e-05-210-260-500-26-roberta-200/
│   │   ├── command
│   │   ├── commit_hash
│   │   └── config.json
│   ├── 2-4-roberta-base-saved-5-head_tail-roberta-stackx-base-v2-pl1kksample20k-1e-05-210-260-500-26-roberta-200/
│   │   ├── config.json
│   │   └── config_train.json
│   └── 4-2-5-head_tail-bart-2e-05-210-260-500-26-split_pseudo-250/
│       ├── command
│       ├── commit_hash
│       └── config.json
├── input/
│   ├── google-quest-challenge/
│   │   ├── sample_submission_toy.csv
│   │   ├── test_toy.csv
│   │   └── train_toy.csv
│   ├── qa_stackexchange_cleaned.csv
│   ├── qa_stackexchange_cleaned_toy.csv
│   └── stackx-base-cased/
│       ├── config.json
│       ├── stackx-base-cased-config.json
│       ├── stackx-base-cased-vocab.txt
│       ├── training_log.csv
│       └── vocab.txt
├── packages/
│   ├── fairseq-hacked/
│   │   ├── .gitignore
│   │   ├── CODE_OF_CONDUCT.md
│   │   ├── CONTRIBUTING.md
│   │   ├── LICENSE
│   │   ├── README.md
│   │   ├── docs/
│   │   │   ├── Makefile
│   │   │   ├── _static/
│   │   │   │   └── theme_overrides.css
│   │   │   ├── command_line_tools.rst
│   │   │   ├── conf.py
│   │   │   ├── criterions.rst
│   │   │   ├── data.rst
│   │   │   ├── docutils.conf
│   │   │   ├── getting_started.rst
│   │   │   ├── index.rst
│   │   │   ├── lr_scheduler.rst
│   │   │   ├── make.bat
│   │   │   ├── models.rst
│   │   │   ├── modules.rst
│   │   │   ├── optim.rst
│   │   │   ├── overview.rst
│   │   │   ├── requirements.txt
│   │   │   ├── tasks.rst
│   │   │   ├── tutorial_classifying_names.rst
│   │   │   └── tutorial_simple_lstm.rst
│   │   ├── eval_lm.py
│   │   ├── examples/
│   │   │   ├── .gitignore
│   │   │   ├── __init__.py
│   │   │   ├── backtranslation/
│   │   │   │   └── README.md
│   │   │   ├── bart/
│   │   │   │   ├── README.cnn.md
│   │   │   │   ├── README.glue.md
│   │   │   │   └── README.md
│   │   │   ├── camembert/
│   │   │   │   └── README.md
│   │   │   ├── conv_seq2seq/
│   │   │   │   └── README.md
│   │   │   ├── cross_lingual_language_model/
│   │   │   │   └── README.md
│   │   │   ├── joint_alignment_translation/
│   │   │   │   ├── README.md
│   │   │   │   └── prepare-wmt18en2de_no_norm_no_escape_no_agressive.sh
│   │   │   ├── language_model/
│   │   │   │   ├── README.md
│   │   │   │   ├── conv_lm/
│   │   │   │   │   └── README.md
│   │   │   │   ├── prepare-wikitext-103.sh
│   │   │   │   └── transformer_lm/
│   │   │   │       └── README.md
│   │   │   ├── layerdrop/
│   │   │   │   └── README.md
│   │   │   ├── noisychannel/
│   │   │   │   ├── README.md
│   │   │   │   ├── __init__.py
│   │   │   │   ├── rerank.py
│   │   │   │   ├── rerank_generate.py
│   │   │   │   ├── rerank_options.py
│   │   │   │   ├── rerank_score_bw.py
│   │   │   │   ├── rerank_score_lm.py
│   │   │   │   ├── rerank_tune.py
│   │   │   │   └── rerank_utils.py
│   │   │   ├── nonautoregressive_translation/
│   │   │   │   ├── README.md
│   │   │   │   └── scripts.md
│   │   │   ├── pay_less_attention_paper/
│   │   │   │   └── README.md
│   │   │   ├── roberta/
│   │   │   │   ├── README.custom_classification.md
│   │   │   │   ├── README.glue.md
│   │   │   │   ├── README.md
│   │   │   │   ├── README.pretraining.md
│   │   │   │   ├── README.race.md
│   │   │   │   ├── commonsense_qa/
│   │   │   │   │   ├── README.md
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── commonsense_qa_task.py
│   │   │   │   │   └── download_cqa_data.sh
│   │   │   │   ├── multiprocessing_bpe_encoder.py
│   │   │   │   ├── preprocess_GLUE_tasks.sh
│   │   │   │   ├── preprocess_RACE.py
│   │   │   │   ├── preprocess_RACE.sh
│   │   │   │   └── wsc/
│   │   │   │       ├── README.md
│   │   │   │       ├── __init__.py
│   │   │   │       ├── wsc_criterion.py
│   │   │   │       ├── wsc_task.py
│   │   │   │       └── wsc_utils.py
│   │   │   ├── scaling_nmt/
│   │   │   │   └── README.md
│   │   │   ├── speech_recognition/
│   │   │   │   ├── README.md
│   │   │   │   ├── __init__.py
│   │   │   │   ├── criterions/
│   │   │   │   │   ├── ASG_loss.py
│   │   │   │   │   ├── CTC_loss.py
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   └── cross_entropy_acc.py
│   │   │   │   ├── datasets/
│   │   │   │   │   ├── asr_prep_json.py
│   │   │   │   │   └── prepare-librispeech.sh
│   │   │   │   ├── infer.py
│   │   │   │   ├── models/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── vggtransformer.py
│   │   │   │   │   └── w2l_conv_glu_enc.py
│   │   │   │   ├── tasks/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   └── speech_recognition.py
│   │   │   │   ├── utils/
│   │   │   │   │   └── wer_utils.py
│   │   │   │   └── w2l_decoder.py
│   │   │   ├── stories/
│   │   │   │   └── README.md
│   │   │   ├── translation/
│   │   │   │   ├── README.md
│   │   │   │   ├── prepare-iwslt14.sh
│   │   │   │   ├── prepare-iwslt17-multilingual.sh
│   │   │   │   ├── prepare-wmt14en2de.sh
│   │   │   │   └── prepare-wmt14en2fr.sh
│   │   │   ├── translation_moe/
│   │   │   │   ├── README.md
│   │   │   │   └── score.py
│   │   │   ├── wav2vec/
│   │   │   │   └── README.md
│   │   │   ├── wmt19/
│   │   │   │   └── README.md
│   │   │   └── xlmr/
│   │   │       └── README.md
│   │   ├── fairseq/
│   │   │   ├── __init__.py
│   │   │   ├── binarizer.py
│   │   │   ├── bleu.py
│   │   │   ├── checkpoint_utils.py
│   │   │   ├── clib/
│   │   │   │   ├── libbleu/
│   │   │   │   │   ├── libbleu.cpp
│   │   │   │   │   └── module.cpp
│   │   │   │   └── libnat/
│   │   │   │       └── edit_dist.cpp
│   │   │   ├── criterions/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── adaptive_loss.py
│   │   │   │   ├── binary_cross_entropy.py
│   │   │   │   ├── composite_loss.py
│   │   │   │   ├── cross_entropy.py
│   │   │   │   ├── fairseq_criterion.py
│   │   │   │   ├── label_smoothed_cross_entropy.py
│   │   │   │   ├── label_smoothed_cross_entropy_with_alignment.py
│   │   │   │   ├── legacy_masked_lm.py
│   │   │   │   ├── masked_lm.py
│   │   │   │   ├── nat_loss.py
│   │   │   │   ├── sentence_prediction.py
│   │   │   │   └── sentence_ranking.py
│   │   │   ├── distributed_utils.py
│   │   │   ├── file_utils.py
│   │   │   ├── hub_utils.py
│   │   │   ├── iterative_refinement_generator.py
│   │   │   ├── legacy_distributed_data_parallel.py
│   │   │   ├── meters.py
│   │   │   ├── models/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── bart/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── hub_interface.py
│   │   │   │   │   └── model.py
│   │   │   │   ├── cmlm_transformer.py
│   │   │   │   ├── composite_encoder.py
│   │   │   │   ├── distributed_fairseq_model.py
│   │   │   │   ├── fairseq_decoder.py
│   │   │   │   ├── fairseq_encoder.py
│   │   │   │   ├── fairseq_incremental_decoder.py
│   │   │   │   ├── fairseq_model.py
│   │   │   │   ├── fconv.py
│   │   │   │   ├── fconv_lm.py
│   │   │   │   ├── fconv_self_att.py
│   │   │   │   ├── insertion_transformer.py
│   │   │   │   ├── iterative_nonautoregressive_transformer.py
│   │   │   │   ├── levenshtein_transformer.py
│   │   │   │   ├── lightconv.py
│   │   │   │   ├── lightconv_lm.py
│   │   │   │   ├── lstm.py
│   │   │   │   ├── masked_lm.py
│   │   │   │   ├── model_utils.py
│   │   │   │   ├── multilingual_transformer.py
│   │   │   │   ├── nonautoregressive_ensembles.py
│   │   │   │   ├── nonautoregressive_transformer.py
│   │   │   │   ├── roberta/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── alignment_utils.py
│   │   │   │   │   ├── hub_interface.py
│   │   │   │   │   └── model.py
│   │   │   │   ├── transformer.py
│   │   │   │   ├── transformer_from_pretrained_xlm.py
│   │   │   │   ├── transformer_lm.py
│   │   │   │   └── wav2vec.py
│   │   │   ├── modules/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── adaptive_input.py
│   │   │   │   ├── adaptive_softmax.py
│   │   │   │   ├── beamable_mm.py
│   │   │   │   ├── character_token_embedder.py
│   │   │   │   ├── conv_tbc.py
│   │   │   │   ├── cuda_utils.cu
│   │   │   │   ├── downsampled_multihead_attention.py
│   │   │   │   ├── dynamic_convolution.py
│   │   │   │   ├── dynamicconv_layer/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── cuda_function_gen.py
│   │   │   │   │   ├── dynamicconv_cuda.cpp
│   │   │   │   │   ├── dynamicconv_cuda.cuh
│   │   │   │   │   ├── dynamicconv_cuda_kernel.cu
│   │   │   │   │   ├── dynamicconv_layer.py
│   │   │   │   │   ├── dynamiconv_cpu.cpp
│   │   │   │   │   └── setup.py
│   │   │   │   ├── gelu.py
│   │   │   │   ├── grad_multiply.py
│   │   │   │   ├── highway.py
│   │   │   │   ├── layer_norm.py
│   │   │   │   ├── learned_positional_embedding.py
│   │   │   │   ├── lightconv_layer/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── cuda_function_gen.py
│   │   │   │   │   ├── lightconv_cuda.cpp
│   │   │   │   │   ├── lightconv_cuda.cuh
│   │   │   │   │   ├── lightconv_cuda_kernel.cu
│   │   │   │   │   ├── lightconv_layer.py
│   │   │   │   │   └── setup.py
│   │   │   │   ├── lightweight_convolution.py
│   │   │   │   ├── linearized_convolution.py
│   │   │   │   ├── logsumexp_moe.py
│   │   │   │   ├── mean_pool_gating_network.py
│   │   │   │   ├── multihead_attention.py
│   │   │   │   ├── positional_embedding.py
│   │   │   │   ├── scalar_bias.py
│   │   │   │   ├── sinusoidal_positional_embedding.py
│   │   │   │   ├── sparse_multihead_attention.py
│   │   │   │   ├── sparse_transformer_sentence_encoder.py
│   │   │   │   ├── sparse_transformer_sentence_encoder_layer.py
│   │   │   │   ├── transformer_layer.py
│   │   │   │   ├── transformer_sentence_encoder.py
│   │   │   │   ├── transformer_sentence_encoder_layer.py
│   │   │   │   ├── unfold.py
│   │   │   │   └── vggblock.py
│   │   │   ├── optim/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── adadelta.py
│   │   │   │   ├── adafactor.py
│   │   │   │   ├── adagrad.py
│   │   │   │   ├── adam.py
│   │   │   │   ├── adamax.py
│   │   │   │   ├── bmuf.py
│   │   │   │   ├── fairseq_optimizer.py
│   │   │   │   ├── fp16_optimizer.py
│   │   │   │   ├── lr_scheduler/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── cosine_lr_scheduler.py
│   │   │   │   │   ├── fairseq_lr_scheduler.py
│   │   │   │   │   ├── fixed_schedule.py
│   │   │   │   │   ├── inverse_square_root_schedule.py
│   │   │   │   │   ├── polynomial_decay_schedule.py
│   │   │   │   │   ├── reduce_lr_on_plateau.py
│   │   │   │   │   ├── tri_stage_lr_scheduler.py
│   │   │   │   │   └── triangular_lr_scheduler.py
│   │   │   │   ├── nag.py
│   │   │   │   └── sgd.py
│   │   │   ├── options.py
│   │   │   ├── pdb.py
│   │   │   ├── progress_bar.py
│   │   │   ├── registry.py
│   │   │   ├── search.py
│   │   │   ├── sequence_generator.py
│   │   │   ├── sequence_scorer.py
│   │   │   ├── tasks/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── audio_pretraining.py
│   │   │   │   ├── cross_lingual_lm.py
│   │   │   │   ├── denoising.py
│   │   │   │   ├── fairseq_task.py
│   │   │   │   ├── language_modeling.py
│   │   │   │   ├── legacy_masked_lm.py
│   │   │   │   ├── masked_lm.py
│   │   │   │   ├── multilingual_masked_lm.py
│   │   │   │   ├── multilingual_translation.py
│   │   │   │   ├── semisupervised_translation.py
│   │   │   │   ├── sentence_prediction.py
│   │   │   │   ├── sentence_ranking.py
│   │   │   │   ├── translation.py
│   │   │   │   ├── translation_from_pretrained_xlm.py
│   │   │   │   ├── translation_lev.py
│   │   │   │   └── translation_moe.py
│   │   │   ├── tokenizer.py
│   │   │   ├── trainer.py
│   │   │   └── utils.py
│   │   ├── fairseq_cli/
│   │   │   ├── __init__.py
│   │   │   ├── eval_lm.py
│   │   │   ├── generate.py
│   │   │   ├── interactive.py
│   │   │   ├── preprocess.py
│   │   │   ├── score.py
│   │   │   ├── setup.py
│   │   │   └── train.py
│   │   ├── generate.py
│   │   ├── hubconf.py
│   │   ├── interactive.py
│   │   ├── preprocess.py
│   │   ├── score.py
│   │   ├── scripts/
│   │   │   ├── __init__.py
│   │   │   ├── average_checkpoints.py
│   │   │   ├── build_sym_alignment.py
│   │   │   ├── compare_namespaces.py
│   │   │   ├── compound_split_bleu.sh
│   │   │   ├── convert_dictionary.lua
│   │   │   ├── convert_model.lua
│   │   │   ├── count_docs.py
│   │   │   ├── read_binarized.py
│   │   │   ├── rm_pt.py
│   │   │   ├── sacrebleu_pregen.sh
│   │   │   ├── shard_docs.py
│   │   │   ├── split_train_valid_docs.py
│   │   │   ├── spm_decode.py
│   │   │   ├── spm_encode.py
│   │   │   ├── spm_train.py
│   │   │   ├── wav2vec_featurize.py
│   │   │   └── wav2vec_manifest.py
│   │   ├── setup.py
│   │   ├── tests/
│   │   │   ├── __init__.py
│   │   │   ├── speech_recognition/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── asr_test_base.py
│   │   │   │   ├── test_collaters.py
│   │   │   │   ├── test_cross_entropy.py
│   │   │   │   └── test_vggtransformer.py
│   │   │   ├── test_average_checkpoints.py
│   │   │   ├── test_backtranslation_dataset.py
│   │   │   ├── test_binaries.py
│   │   │   ├── test_bmuf.py
│   │   │   ├── test_character_token_embedder.py
│   │   │   ├── test_concat_dataset.py
│   │   │   ├── test_convtbc.py
│   │   │   ├── test_dictionary.py
│   │   │   ├── test_iterators.py
│   │   │   ├── test_label_smoothing.py
│   │   │   ├── test_memory_efficient_fp16.py
│   │   │   ├── test_multi_corpus_sampled_dataset.py
│   │   │   ├── test_multihead_attention.py
│   │   │   ├── test_noising.py
│   │   │   ├── test_reproducibility.py
│   │   │   ├── test_resampling_dataset.py
│   │   │   ├── test_sequence_generator.py
│   │   │   ├── test_sequence_scorer.py
│   │   │   ├── test_sparse_multihead_attention.py
│   │   │   ├── test_token_block_dataset.py
│   │   │   ├── test_train.py
│   │   │   ├── test_utils.py
│   │   │   └── utils.py
│   │   ├── train.py
│   │   └── validate.py
│   └── gpt2bpe/
│       ├── encoder.json
│       └── vocab.bpe
├── requirements_full.txt
├── requirements_minimal.txt
├── step11_final/
│   └── blending_n_postprocessing.py
├── step1_lm_finetuning/
│   ├── callbacks.py
│   ├── data/
│   │   ├── __init__.py
│   │   ├── augmentation/
│   │   │   ├── __init__.py
│   │   │   └── tokenization.py
│   │   ├── config.json
│   │   ├── dataset.py
│   │   ├── folds.csv
│   │   ├── group_kf_folds.csv
│   │   ├── make_folds.py
│   │   ├── sampler.py
│   │   └── vocab.txt
│   ├── data_preparation/
│   │   ├── clean_stack_exchange_qa.py
│   │   ├── clean_stackexchange_QA_demonstration.ipynb
│   │   ├── download_and_process_stackexchange_dump_demonstration.ipynb
│   │   └── scrape_stack_exchange.py
│   ├── train_stackx_lm.py
│   └── utils.py
├── step2_pseudo_labeling/
│   ├── bert-base/
│   │   ├── apply_swa.py
│   │   ├── args.py
│   │   ├── dataset.py
│   │   ├── evaluation.py
│   │   ├── infer.py
│   │   ├── infer_pseudo.py
│   │   ├── loops.py
│   │   ├── misc.py
│   │   ├── model.py
│   │   └── run.py
│   ├── bert-base-pretrained/
│   │   ├── apply_swa.py
│   │   ├── args.py
│   │   ├── dataset.py
│   │   ├── evaluation.py
│   │   ├── infer.py
│   │   ├── infer_pseudo.py
│   │   ├── loops.py
│   │   ├── misc.py
│   │   ├── model.py
│   │   └── run.py
│   ├── bert-large/
│   │   ├── apply_swa.py
│   │   ├── args.py
│   │   ├── dataset.py
│   │   ├── evaluation.py
│   │   ├── infer.py
│   │   ├── infer_pseudo.py
│   │   ├── loops.py
│   │   ├── misc.py
│   │   ├── model.py
│   │   └── run.py
│   └── blend_pseudo.py
├── step3_model1_bert_code/
│   ├── bert.py
│   ├── callbacks.py
│   ├── data/
│   │   ├── __init__.py
│   │   ├── augmentation/
│   │   │   ├── __init__.py
│   │   │   └── tokenization.py
│   │   ├── dataset.py
│   │   ├── folds.csv
│   │   ├── group_kf_folds.csv
│   │   ├── make_folds.py
│   │   └── sampler.py
│   ├── metrics.py
│   ├── models.py
│   ├── schedule.py
│   ├── train.py
│   └── utils.py
├── step4_model2_bert_code/
│   ├── apply_swa.py
│   ├── args.py
│   ├── dataset.py
│   ├── evaluation.py
│   ├── infer.py
│   ├── loops.py
│   ├── misc.py
│   ├── model.py
│   └── run.py
├── step5_model3_roberta_code/
│   ├── args.py
│   ├── augmentation.py
│   ├── dataset.py
│   ├── evaluation.py
│   ├── infer.py
│   ├── loops.py
│   ├── misc.py
│   ├── model.py
│   └── run.py
├── step6_model4_bart_code/
│   ├── apply_swa.py
│   ├── args.py
│   ├── dataset.py
│   ├── evaluation.py
│   ├── infer.py
│   ├── loops.py
│   ├── misc.py
│   ├── model.py
│   └── run.py
├── steps7_10_inference/
│   ├── model1_bert_code/
│   │   ├── callbacks.py
│   │   ├── data/
│   │   │   ├── __init__.py
│   │   │   ├── augmentation/
│   │   │   │   ├── __init__.py
│   │   │   │   └── tokenization.py
│   │   │   ├── dataset.py
│   │   │   ├── folds.csv
│   │   │   ├── group_kf_folds.csv
│   │   │   ├── make_folds.py
│   │   │   └── sampler.py
│   │   ├── metrics.py
│   │   ├── models.py
│   │   ├── predict_test.py
│   │   ├── schedule.py
│   │   └── utils.py
│   ├── model2_bert_code/
│   │   ├── args.py
│   │   ├── dataset.py
│   │   ├── loops.py
│   │   ├── model.py
│   │   └── run.py
│   ├── model3_roberta_code/
│   │   ├── args.py
│   │   ├── augmentation.py
│   │   ├── dataset.py
│   │   ├── evaluation.py
│   │   ├── infer.py
│   │   ├── loops.py
│   │   ├── misc.py
│   │   ├── model.py
│   │   └── run.py
│   └── model4_bart_code/
│       ├── args.py
│       ├── dataset.py
│       ├── loops.py
│       ├── model.py
│       └── run.py
└── submissions/
    ├── model1_submission.csv
    ├── model2_bert_base_cased_pred.csv
    ├── model3_roberta-base-output/
    │   ├── fold-0.csv
    │   ├── fold-1.csv
    │   ├── fold-2.csv
    │   ├── fold-3.csv
    │   └── fold-4.csv
    ├── model4_bart_large_pred.csv
    └── submission.csv