gitextract_bepqsdc6/ ├── LICENSE.md ├── README.md ├── SECURITY.md ├── examples/ │ ├── NLG/ │ │ ├── CODE_OF_CONDUCT.md │ │ ├── LICENSE │ │ ├── README.md │ │ ├── SECURITY.md │ │ ├── create_datasets.sh │ │ ├── data/ │ │ │ ├── dart/ │ │ │ │ ├── dart-v1.1.1-full-dev.json │ │ │ │ ├── dart-v1.1.1-full-test.json │ │ │ │ └── dart-v1.1.1-full-train.json │ │ │ ├── e2e/ │ │ │ │ ├── test.txt │ │ │ │ ├── train.txt │ │ │ │ └── valid.txt │ │ │ └── webnlg_challenge_2017/ │ │ │ ├── dev.json │ │ │ ├── test.json │ │ │ └── train.json │ │ ├── download_pretrained_checkpoints.sh │ │ ├── eval/ │ │ │ ├── README.md │ │ │ ├── download_evalscript.sh │ │ │ └── eval.py │ │ ├── requirement.txt │ │ ├── src/ │ │ │ ├── data_utils.py │ │ │ ├── encoder.py │ │ │ ├── exp_utils.py │ │ │ ├── format_converting_dart.py │ │ │ ├── format_converting_e2e.py │ │ │ ├── format_converting_webnlg.py │ │ │ ├── gpt2_beam.py │ │ │ ├── gpt2_decode.py │ │ │ ├── gpt2_encode.py │ │ │ ├── gpt2_ft.py │ │ │ ├── gpu.py │ │ │ ├── model.py │ │ │ └── optimizer.py │ │ └── vocab/ │ │ ├── config.json │ │ ├── encoder.json │ │ ├── tokenizer.json │ │ ├── vocab.bpe │ │ └── vocab.json │ └── NLU/ │ ├── CODE_OF_CONDUCT.md │ ├── CONTRIBUTING.md │ ├── ISSUES.md │ ├── LICENSE │ ├── MANIFEST.in │ ├── Makefile │ ├── README.md │ ├── adapter_houlsby_roberta_large_mnli.sh │ ├── adapter_pfeiffer_roberta_large_mnli.sh │ ├── deberta_v2_xxlarge_cola.sh │ ├── deberta_v2_xxlarge_mnli.sh │ ├── deberta_v2_xxlarge_mrpc.sh │ ├── deberta_v2_xxlarge_qnli.sh │ ├── deberta_v2_xxlarge_qqp.sh │ ├── deberta_v2_xxlarge_rte.sh │ ├── deberta_v2_xxlarge_sst2.sh │ ├── deberta_v2_xxlarge_stsb.sh │ ├── docker/ │ │ ├── transformers-cpu/ │ │ │ └── Dockerfile │ │ ├── transformers-gpu/ │ │ │ └── Dockerfile │ │ ├── transformers-pytorch-cpu/ │ │ │ └── Dockerfile │ │ ├── transformers-pytorch-gpu/ │ │ │ └── Dockerfile │ │ ├── transformers-pytorch-tpu/ │ │ │ ├── Dockerfile │ │ │ ├── bert-base-cased.jsonnet │ │ │ ├── dataset.yaml │ │ │ └── docker-entrypoint.sh │ │ ├── transformers-tensorflow-cpu/ │ │ │ └── Dockerfile │ │ └── transformers-tensorflow-gpu/ │ │ └── Dockerfile │ ├── docs/ │ │ ├── Makefile │ │ ├── README.md │ │ └── source/ │ │ ├── _static/ │ │ │ ├── css/ │ │ │ │ ├── Calibre-Medium.otf │ │ │ │ ├── Calibre-Regular.otf │ │ │ │ ├── Calibre-Thin.otf │ │ │ │ ├── code-snippets.css │ │ │ │ └── huggingface.css │ │ │ └── js/ │ │ │ └── custom.js │ │ ├── add_new_model.rst │ │ ├── benchmarks.rst │ │ ├── bertology.rst │ │ ├── community.md │ │ ├── conf.py │ │ ├── converting_tensorflow_models.rst │ │ ├── custom_datasets.rst │ │ ├── glossary.rst │ │ ├── index.rst │ │ ├── installation.md │ │ ├── internal/ │ │ │ ├── file_utils.rst │ │ │ ├── generation_utils.rst │ │ │ ├── modeling_utils.rst │ │ │ ├── pipelines_utils.rst │ │ │ ├── tokenization_utils.rst │ │ │ └── trainer_utils.rst │ │ ├── main_classes/ │ │ │ ├── callback.rst │ │ │ ├── configuration.rst │ │ │ ├── feature_extractor.rst │ │ │ ├── logging.rst │ │ │ ├── model.rst │ │ │ ├── optimizer_schedules.rst │ │ │ ├── output.rst │ │ │ ├── pipelines.rst │ │ │ ├── processors.rst │ │ │ ├── tokenizer.rst │ │ │ └── trainer.rst │ │ ├── migration.md │ │ ├── model_doc/ │ │ │ ├── albert.rst │ │ │ ├── auto.rst │ │ │ ├── bart.rst │ │ │ ├── barthez.rst │ │ │ ├── bert.rst │ │ │ ├── bertgeneration.rst │ │ │ ├── bertweet.rst │ │ │ ├── blenderbot.rst │ │ │ ├── blenderbot_small.rst │ │ │ ├── bort.rst │ │ │ ├── camembert.rst │ │ │ ├── convbert.rst │ │ │ ├── ctrl.rst │ │ │ ├── deberta.rst │ │ │ ├── deberta_v2.rst │ │ │ ├── dialogpt.rst │ │ │ ├── distilbert.rst │ │ │ ├── dpr.rst │ │ │ ├── electra.rst │ │ │ ├── encoderdecoder.rst │ │ │ ├── flaubert.rst │ │ │ ├── fsmt.rst │ │ │ ├── funnel.rst │ │ │ ├── gpt.rst │ │ │ ├── gpt2.rst │ │ │ ├── herbert.rst │ │ │ ├── ibert.rst │ │ │ ├── layoutlm.rst │ │ │ ├── led.rst │ │ │ ├── longformer.rst │ │ │ ├── lxmert.rst │ │ │ ├── m2m_100.rst │ │ │ ├── marian.rst │ │ │ ├── mbart.rst │ │ │ ├── mobilebert.rst │ │ │ ├── mpnet.rst │ │ │ ├── mt5.rst │ │ │ ├── pegasus.rst │ │ │ ├── phobert.rst │ │ │ ├── prophetnet.rst │ │ │ ├── rag.rst │ │ │ ├── reformer.rst │ │ │ ├── retribert.rst │ │ │ ├── roberta.rst │ │ │ ├── speech_to_text.rst │ │ │ ├── squeezebert.rst │ │ │ ├── t5.rst │ │ │ ├── tapas.rst │ │ │ ├── transformerxl.rst │ │ │ ├── wav2vec2.rst │ │ │ ├── xlm.rst │ │ │ ├── xlmprophetnet.rst │ │ │ ├── xlmroberta.rst │ │ │ ├── xlnet.rst │ │ │ └── xlsr_wav2vec2.rst │ │ ├── model_sharing.rst │ │ ├── model_summary.rst │ │ ├── multilingual.rst │ │ ├── perplexity.rst │ │ ├── philosophy.rst │ │ ├── preprocessing.rst │ │ ├── pretrained_models.rst │ │ ├── quicktour.rst │ │ ├── serialization.rst │ │ ├── task_summary.rst │ │ ├── testing.rst │ │ ├── tokenizer_summary.rst │ │ └── training.rst │ ├── ds_config.json │ ├── environment.yml │ ├── examples/ │ │ ├── README.md │ │ ├── _tests_requirements.txt │ │ ├── benchmarking/ │ │ │ ├── README.md │ │ │ ├── plot_csv_file.py │ │ │ ├── requirements.txt │ │ │ ├── run_benchmark.py │ │ │ └── run_benchmark_tf.py │ │ ├── conftest.py │ │ ├── language-modeling/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── run_clm.py │ │ │ ├── run_mlm.py │ │ │ ├── run_mlm_flax.py │ │ │ └── run_plm.py │ │ ├── legacy/ │ │ │ ├── README.md │ │ │ ├── multiple_choice/ │ │ │ │ ├── run_multiple_choice.py │ │ │ │ └── utils_multiple_choice.py │ │ │ ├── pytorch-lightning/ │ │ │ │ ├── lightning_base.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_glue.py │ │ │ │ ├── run_glue.sh │ │ │ │ ├── run_ner.py │ │ │ │ ├── run_ner.sh │ │ │ │ └── run_pos.sh │ │ │ ├── question-answering/ │ │ │ │ ├── run_squad.py │ │ │ │ └── run_squad_trainer.py │ │ │ ├── run_camembert.py │ │ │ ├── run_chinese_ref.py │ │ │ ├── run_language_modeling.py │ │ │ ├── run_openai_gpt.py │ │ │ ├── run_swag.py │ │ │ ├── run_transfo_xl.py │ │ │ ├── seq2seq/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── convert_model_to_fp16.py │ │ │ │ ├── download_wmt.py │ │ │ │ ├── finetune.sh │ │ │ │ ├── finetune_tpu.sh │ │ │ │ ├── finetune_trainer.py │ │ │ │ ├── minify_dataset.py │ │ │ │ ├── old_test_calculate_rouge.py │ │ │ │ ├── old_test_datasets.py │ │ │ │ ├── old_test_fsmt_bleu_score.py │ │ │ │ ├── old_test_seq2seq_examples.py │ │ │ │ ├── old_test_seq2seq_examples_multi_gpu.py │ │ │ │ ├── old_test_tatoeba_conversion.py │ │ │ │ ├── pack_dataset.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── romanian_postprocessing.md │ │ │ │ ├── rouge_cli.py │ │ │ │ ├── run_distributed_eval.py │ │ │ │ ├── run_eval.py │ │ │ │ ├── run_eval_search.py │ │ │ │ ├── save_len_file.py │ │ │ │ ├── save_randomly_initialized_model.py │ │ │ │ ├── sentence_splitter.py │ │ │ │ ├── seq2seq_trainer.py │ │ │ │ ├── seq2seq_training_args.py │ │ │ │ ├── test_data/ │ │ │ │ │ ├── fsmt/ │ │ │ │ │ │ ├── build-eval-data.py │ │ │ │ │ │ └── fsmt_val_data.json │ │ │ │ │ └── wmt_en_ro/ │ │ │ │ │ ├── test.source │ │ │ │ │ ├── test.target │ │ │ │ │ ├── train.len │ │ │ │ │ ├── train.source │ │ │ │ │ ├── train.target │ │ │ │ │ ├── val.len │ │ │ │ │ ├── val.source │ │ │ │ │ └── val.target │ │ │ │ ├── train_distil_marian_enro.sh │ │ │ │ ├── train_distil_marian_enro_tpu.sh │ │ │ │ ├── train_distilbart_cnn.sh │ │ │ │ ├── train_mbart_cc25_enro.sh │ │ │ │ ├── utils.py │ │ │ │ └── xla_spawn.py │ │ │ └── token-classification/ │ │ │ ├── README.md │ │ │ ├── run.sh │ │ │ ├── run_chunk.sh │ │ │ ├── run_ner.py │ │ │ ├── run_pos.sh │ │ │ ├── run_tf_ner.py │ │ │ ├── scripts/ │ │ │ │ └── preprocess.py │ │ │ ├── tasks.py │ │ │ └── utils_ner.py │ │ ├── multiple-choice/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── run_swag.py │ │ │ ├── run_tf_multiple_choice.py │ │ │ └── utils_multiple_choice.py │ │ ├── question-answering/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── run_qa.py │ │ │ ├── run_qa_beam_search.py │ │ │ ├── run_tf_squad.py │ │ │ ├── trainer_qa.py │ │ │ └── utils_qa.py │ │ ├── research_projects/ │ │ │ ├── README.md │ │ │ ├── adversarial/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_hans.py │ │ │ │ └── utils_hans.py │ │ │ ├── bert-loses-patience/ │ │ │ │ ├── README.md │ │ │ │ ├── pabee/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── modeling_pabee_albert.py │ │ │ │ │ └── modeling_pabee_bert.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_glue_with_pabee.py │ │ │ │ └── test_run_glue_with_pabee.py │ │ │ ├── bertabs/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_bertabs.py │ │ │ │ ├── convert_bertabs_original_pytorch_checkpoint.py │ │ │ │ ├── modeling_bertabs.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_summarization.py │ │ │ │ ├── test_utils_summarization.py │ │ │ │ └── utils_summarization.py │ │ │ ├── bertology/ │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_bertology.py │ │ │ │ └── run_prune_gpt.py │ │ │ ├── deebert/ │ │ │ │ ├── README.md │ │ │ │ ├── entropy_eval.sh │ │ │ │ ├── eval_deebert.sh │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_glue_deebert.py │ │ │ │ ├── src/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── modeling_highway_bert.py │ │ │ │ │ └── modeling_highway_roberta.py │ │ │ │ ├── test_glue_deebert.py │ │ │ │ └── train_deebert.sh │ │ │ ├── distillation/ │ │ │ │ ├── README.md │ │ │ │ ├── distiller.py │ │ │ │ ├── grouped_batch_sampler.py │ │ │ │ ├── lm_seqs_dataset.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_squad_w_distillation.py │ │ │ │ ├── scripts/ │ │ │ │ │ ├── binarized_data.py │ │ │ │ │ ├── extract.py │ │ │ │ │ ├── extract_distilbert.py │ │ │ │ │ └── token_counts.py │ │ │ │ ├── train.py │ │ │ │ ├── training_configs/ │ │ │ │ │ ├── distilbert-base-cased.json │ │ │ │ │ ├── distilbert-base-multilingual-cased.json │ │ │ │ │ ├── distilbert-base-uncased.json │ │ │ │ │ ├── distilgpt2.json │ │ │ │ │ └── distilroberta-base.json │ │ │ │ └── utils.py │ │ │ ├── longform-qa/ │ │ │ │ ├── README.md │ │ │ │ ├── eli5_app.py │ │ │ │ ├── eli5_utils.py │ │ │ │ └── requirements.txt │ │ │ ├── lxmert/ │ │ │ │ ├── README.md │ │ │ │ ├── demo.ipynb │ │ │ │ ├── extracting_data.py │ │ │ │ ├── modeling_frcnn.py │ │ │ │ ├── processing_image.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── utils.py │ │ │ │ └── visualizing_image.py │ │ │ ├── mlm_wwm/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_chinese_ref.py │ │ │ │ └── run_mlm_wwm.py │ │ │ ├── mm-imdb/ │ │ │ │ ├── README.md │ │ │ │ ├── run_mmimdb.py │ │ │ │ └── utils_mmimdb.py │ │ │ ├── movement-pruning/ │ │ │ │ ├── README.md │ │ │ │ ├── Saving_PruneBERT.ipynb │ │ │ │ ├── bertarize.py │ │ │ │ ├── counts_parameters.py │ │ │ │ ├── emmental/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── configuration_bert_masked.py │ │ │ │ │ ├── modeling_bert_masked.py │ │ │ │ │ └── modules/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── binarizer.py │ │ │ │ │ └── masked_nn.py │ │ │ │ ├── masked_run_glue.py │ │ │ │ ├── masked_run_squad.py │ │ │ │ └── requirements.txt │ │ │ ├── performer/ │ │ │ │ ├── README.md │ │ │ │ ├── full_script.sh │ │ │ │ ├── modeling_flax_performer.py │ │ │ │ ├── modeling_flax_performer_utils.py │ │ │ │ ├── run_mlm_performer.py │ │ │ │ └── sanity_script.sh │ │ │ ├── pplm/ │ │ │ │ ├── README.md │ │ │ │ ├── pplm_classification_head.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_pplm.py │ │ │ │ └── run_pplm_discrim_train.py │ │ │ ├── rag/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── _test_finetune_rag.py │ │ │ │ ├── callbacks_rag.py │ │ │ │ ├── consolidate_rag_checkpoint.py │ │ │ │ ├── distributed_pytorch_retriever.py │ │ │ │ ├── distributed_ray_retriever.py │ │ │ │ ├── eval_rag.py │ │ │ │ ├── finetune_rag.py │ │ │ │ ├── finetune_rag.sh │ │ │ │ ├── finetune_rag_ray.sh │ │ │ │ ├── lightning_base.py │ │ │ │ ├── parse_dpr_relevance_data.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── test_data/ │ │ │ │ │ └── my_knowledge_dataset.csv │ │ │ │ ├── test_distributed_retriever.py │ │ │ │ ├── use_own_knowledge_dataset.py │ │ │ │ └── utils_rag.py │ │ │ ├── seq2seq-distillation/ │ │ │ │ ├── README.md │ │ │ │ ├── _test_bash_script.py │ │ │ │ ├── _test_make_student.py │ │ │ │ ├── _test_seq2seq_examples.py │ │ │ │ ├── _test_seq2seq_examples_multi_gpu.py │ │ │ │ ├── callbacks.py │ │ │ │ ├── convert_pl_checkpoint_to_hf.py │ │ │ │ ├── distil_marian_enro_teacher.sh │ │ │ │ ├── distil_marian_no_teacher.sh │ │ │ │ ├── distillation.py │ │ │ │ ├── dynamic_bs_example.sh │ │ │ │ ├── finetune.py │ │ │ │ ├── finetune.sh │ │ │ │ ├── finetune_bart_tiny.sh │ │ │ │ ├── finetune_pegasus_xsum.sh │ │ │ │ ├── finetune_t5.sh │ │ │ │ ├── lightning_base.py │ │ │ │ ├── make_student.py │ │ │ │ ├── precomputed_pseudo_labels.md │ │ │ │ ├── requirements.txt │ │ │ │ ├── run_eval.py │ │ │ │ ├── sentence_splitter.py │ │ │ │ ├── train_distilbart_cnn.sh │ │ │ │ ├── train_distilbart_xsum.sh │ │ │ │ ├── train_mbart_cc25_enro.sh │ │ │ │ └── utils.py │ │ │ ├── wav2vec2/ │ │ │ │ ├── README.md │ │ │ │ ├── finetune_base_100.sh │ │ │ │ ├── finetune_large_lv60_100.sh │ │ │ │ ├── requirements.txt │ │ │ │ └── run_asr.py │ │ │ └── zero-shot-distillation/ │ │ │ ├── README.md │ │ │ └── distill_classifier.py │ │ ├── seq2seq/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── run_summarization.py │ │ │ └── run_translation.py │ │ ├── test_data/ │ │ │ └── wmt_en_ro/ │ │ │ ├── test.json │ │ │ ├── train.json │ │ │ └── val.json │ │ ├── test_examples.py │ │ ├── test_xla_examples.py │ │ ├── tests/ │ │ │ ├── deepspeed/ │ │ │ │ ├── ds_config.json │ │ │ │ └── test_deepspeed.py │ │ │ └── trainer/ │ │ │ └── test_trainer_ext.py │ │ ├── text-classification/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── run_glue.py │ │ │ ├── run_glue_no_trainer.py │ │ │ ├── run_tf_glue.py │ │ │ ├── run_tf_text_classification.py │ │ │ └── run_xnli.py │ │ ├── text-generation/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ └── run_generation.py │ │ ├── token-classification/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── run.sh │ │ │ └── run_ner.py │ │ └── xla_spawn.py │ ├── hubconf.py │ ├── mnli.cutoff.sh │ ├── mnli.rdrop.sh │ ├── model_cards/ │ │ ├── README.md │ │ └── google/ │ │ └── tapas-base/ │ │ └── README.md │ ├── notebooks/ │ │ ├── 01-training-tokenizers.ipynb │ │ ├── 02-transformers.ipynb │ │ ├── 03-pipelines.ipynb │ │ ├── 04-onnx-export.ipynb │ │ ├── 05-benchmark.ipynb │ │ └── README.md │ ├── pyproject.toml │ ├── roberta_base_cola.sh │ ├── roberta_base_mnli.sh │ ├── roberta_base_mrpc.sh │ ├── roberta_base_qnli.sh │ ├── roberta_base_qqp.sh │ ├── roberta_base_rte.sh │ ├── roberta_base_sst2.sh │ ├── roberta_base_stsb.sh │ ├── roberta_large_cola.sh │ ├── roberta_large_mnli.sh │ ├── roberta_large_mrpc.sh │ ├── roberta_large_qnli.sh │ ├── roberta_large_qqp.sh │ ├── roberta_large_rte.sh │ ├── roberta_large_sst2.sh │ ├── roberta_large_stsb.sh │ ├── runs/ │ │ ├── Jul23_07-08-58_e7dbf158ebfe/ │ │ │ └── events.out.tfevents.1627024961.e7dbf158ebfe │ │ └── Jul23_18-37-14_e7dbf158ebfe/ │ │ ├── events.out.tfevents.1627066276.e7dbf158ebfe.5495.0 │ │ └── events.out.tfevents.1627066277.e7dbf158ebfe.5496.0 │ ├── scripts/ │ │ ├── check_tokenizers.py │ │ ├── fsmt/ │ │ │ ├── convert-allenai-wmt16.sh │ │ │ ├── convert-allenai-wmt19.sh │ │ │ ├── convert-facebook-wmt19.sh │ │ │ ├── eval-allenai-wmt16.sh │ │ │ ├── eval-allenai-wmt19.sh │ │ │ ├── eval-facebook-wmt19.sh │ │ │ ├── fsmt-make-super-tiny-model.py │ │ │ ├── fsmt-make-tiny-model.py │ │ │ ├── gen-card-allenai-wmt16.py │ │ │ ├── gen-card-allenai-wmt19.py │ │ │ ├── gen-card-facebook-wmt19.py │ │ │ ├── s3-move.sh │ │ │ └── tests-to-run.sh │ │ ├── pegasus/ │ │ │ └── build_test_sample_spm_no_bos.py │ │ ├── stale.py │ │ └── tatoeba/ │ │ ├── README.md │ │ └── upload_models.sh │ ├── setup.cfg │ ├── setup.py │ ├── src/ │ │ └── transformers/ │ │ ├── __init__.py │ │ ├── activations.py │ │ ├── activations_tf.py │ │ ├── benchmark/ │ │ │ ├── __init__.py │ │ │ ├── benchmark.py │ │ │ ├── benchmark_args.py │ │ │ ├── benchmark_args_tf.py │ │ │ ├── benchmark_args_utils.py │ │ │ ├── benchmark_tf.py │ │ │ └── benchmark_utils.py │ │ ├── commands/ │ │ │ ├── __init__.py │ │ │ ├── add_new_model.py │ │ │ ├── convert.py │ │ │ ├── download.py │ │ │ ├── env.py │ │ │ ├── lfs.py │ │ │ ├── run.py │ │ │ ├── serving.py │ │ │ ├── train.py │ │ │ ├── transformers_cli.py │ │ │ └── user.py │ │ ├── configuration_utils.py │ │ ├── convert_graph_to_onnx.py │ │ ├── convert_pytorch_checkpoint_to_tf2.py │ │ ├── convert_slow_tokenizer.py │ │ ├── convert_slow_tokenizers_checkpoints_to_fast.py │ │ ├── convert_tf_hub_seq_to_seq_bert_to_pytorch.py │ │ ├── data/ │ │ │ ├── __init__.py │ │ │ ├── data_collator.py │ │ │ ├── datasets/ │ │ │ │ ├── __init__.py │ │ │ │ ├── glue.py │ │ │ │ ├── language_modeling.py │ │ │ │ └── squad.py │ │ │ ├── metrics/ │ │ │ │ ├── __init__.py │ │ │ │ └── squad_metrics.py │ │ │ ├── processors/ │ │ │ │ ├── __init__.py │ │ │ │ ├── glue.py │ │ │ │ ├── squad.py │ │ │ │ ├── utils.py │ │ │ │ └── xnli.py │ │ │ └── test_generation_utils.py │ │ ├── dependency_versions_check.py │ │ ├── dependency_versions_table.py │ │ ├── feature_extraction_sequence_utils.py │ │ ├── feature_extraction_utils.py │ │ ├── file_utils.py │ │ ├── generation_beam_search.py │ │ ├── generation_logits_process.py │ │ ├── generation_stopping_criteria.py │ │ ├── generation_tf_utils.py │ │ ├── generation_utils.py │ │ ├── hf_api.py │ │ ├── hf_argparser.py │ │ ├── integrations.py │ │ ├── modelcard.py │ │ ├── modeling_flax_utils.py │ │ ├── modeling_outputs.py │ │ ├── modeling_tf_outputs.py │ │ ├── modeling_tf_pytorch_utils.py │ │ ├── modeling_tf_utils.py │ │ ├── modeling_utils.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── adapter.py │ │ │ ├── albert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_albert.py │ │ │ │ ├── convert_albert_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_albert.py │ │ │ │ ├── modeling_tf_albert.py │ │ │ │ ├── tokenization_albert.py │ │ │ │ └── tokenization_albert_fast.py │ │ │ ├── auto/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_auto.py │ │ │ │ ├── modeling_auto.py │ │ │ │ ├── modeling_flax_auto.py │ │ │ │ ├── modeling_tf_auto.py │ │ │ │ └── tokenization_auto.py │ │ │ ├── bart/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_bart.py │ │ │ │ ├── convert_bart_original_pytorch_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_bart.py │ │ │ │ ├── modeling_tf_bart.py │ │ │ │ ├── tokenization_bart.py │ │ │ │ └── tokenization_bart_fast.py │ │ │ ├── barthez/ │ │ │ │ ├── __init__.py │ │ │ │ ├── tokenization_barthez.py │ │ │ │ └── tokenization_barthez_fast.py │ │ │ ├── bert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_bert.py │ │ │ │ ├── convert_bert_original_tf2_checkpoint_to_pytorch.py │ │ │ │ ├── convert_bert_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── convert_bert_pytorch_checkpoint_to_original_tf.py │ │ │ │ ├── modeling_bert.py │ │ │ │ ├── modeling_flax_bert.py │ │ │ │ ├── modeling_tf_bert.py │ │ │ │ ├── tokenization_bert.py │ │ │ │ └── tokenization_bert_fast.py │ │ │ ├── bert_generation/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_bert_generation.py │ │ │ │ ├── modeling_bert_generation.py │ │ │ │ └── tokenization_bert_generation.py │ │ │ ├── bert_japanese/ │ │ │ │ ├── __init__.py │ │ │ │ └── tokenization_bert_japanese.py │ │ │ ├── bertweet/ │ │ │ │ ├── __init__.py │ │ │ │ └── tokenization_bertweet.py │ │ │ ├── blenderbot/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_blenderbot.py │ │ │ │ ├── convert_blenderbot_original_pytorch_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_blenderbot.py │ │ │ │ ├── modeling_tf_blenderbot.py │ │ │ │ └── tokenization_blenderbot.py │ │ │ ├── blenderbot_small/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_blenderbot_small.py │ │ │ │ ├── modeling_blenderbot_small.py │ │ │ │ ├── modeling_tf_blenderbot_small.py │ │ │ │ ├── tokenization_blenderbot_small.py │ │ │ │ └── tokenization_blenderbot_small_fast.py │ │ │ ├── bort/ │ │ │ │ └── convert_bort_original_gluonnlp_checkpoint_to_pytorch.py │ │ │ ├── camembert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_camembert.py │ │ │ │ ├── modeling_camembert.py │ │ │ │ ├── modeling_tf_camembert.py │ │ │ │ ├── tokenization_camembert.py │ │ │ │ └── tokenization_camembert_fast.py │ │ │ ├── convbert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_convbert.py │ │ │ │ ├── convert_convbert_original_tf1_checkpoint_to_pytorch_and_tf2.py │ │ │ │ ├── modeling_convbert.py │ │ │ │ ├── modeling_tf_convbert.py │ │ │ │ ├── tokenization_convbert.py │ │ │ │ └── tokenization_convbert_fast.py │ │ │ ├── ctrl/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_ctrl.py │ │ │ │ ├── modeling_ctrl.py │ │ │ │ ├── modeling_tf_ctrl.py │ │ │ │ └── tokenization_ctrl.py │ │ │ ├── deberta/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_deberta.py │ │ │ │ ├── modeling_deberta.py │ │ │ │ └── tokenization_deberta.py │ │ │ ├── deberta_v2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_deberta_v2.py │ │ │ │ ├── modeling_deberta_v2.py │ │ │ │ └── tokenization_deberta_v2.py │ │ │ ├── dialogpt/ │ │ │ │ ├── __init__.py │ │ │ │ └── convert_dialogpt_original_pytorch_checkpoint_to_pytorch.py │ │ │ ├── distilbert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_distilbert.py │ │ │ │ ├── modeling_distilbert.py │ │ │ │ ├── modeling_tf_distilbert.py │ │ │ │ ├── tokenization_distilbert.py │ │ │ │ └── tokenization_distilbert_fast.py │ │ │ ├── dpr/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_dpr.py │ │ │ │ ├── convert_dpr_original_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_dpr.py │ │ │ │ ├── modeling_tf_dpr.py │ │ │ │ ├── tokenization_dpr.py │ │ │ │ └── tokenization_dpr_fast.py │ │ │ ├── electra/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_electra.py │ │ │ │ ├── convert_electra_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_electra.py │ │ │ │ ├── modeling_tf_electra.py │ │ │ │ ├── tokenization_electra.py │ │ │ │ └── tokenization_electra_fast.py │ │ │ ├── encoder_decoder/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_encoder_decoder.py │ │ │ │ └── modeling_encoder_decoder.py │ │ │ ├── flaubert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_flaubert.py │ │ │ │ ├── modeling_flaubert.py │ │ │ │ ├── modeling_tf_flaubert.py │ │ │ │ └── tokenization_flaubert.py │ │ │ ├── fsmt/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_fsmt.py │ │ │ │ ├── convert_fsmt_original_pytorch_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_fsmt.py │ │ │ │ └── tokenization_fsmt.py │ │ │ ├── funnel/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_funnel.py │ │ │ │ ├── convert_funnel_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_funnel.py │ │ │ │ ├── modeling_tf_funnel.py │ │ │ │ ├── tokenization_funnel.py │ │ │ │ └── tokenization_funnel_fast.py │ │ │ ├── gpt2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_gpt2.py │ │ │ │ ├── convert_gpt2_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_gpt2.py │ │ │ │ ├── modeling_tf_gpt2.py │ │ │ │ ├── tokenization_gpt2.py │ │ │ │ └── tokenization_gpt2_fast.py │ │ │ ├── herbert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── tokenization_herbert.py │ │ │ │ └── tokenization_herbert_fast.py │ │ │ ├── ibert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_ibert.py │ │ │ │ ├── modeling_ibert.py │ │ │ │ └── quant_modules.py │ │ │ ├── layoutlm/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_layoutlm.py │ │ │ │ ├── modeling_layoutlm.py │ │ │ │ ├── tokenization_layoutlm.py │ │ │ │ └── tokenization_layoutlm_fast.py │ │ │ ├── led/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_led.py │ │ │ │ ├── modeling_led.py │ │ │ │ ├── modeling_tf_led.py │ │ │ │ ├── tokenization_led.py │ │ │ │ └── tokenization_led_fast.py │ │ │ ├── longformer/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_longformer.py │ │ │ │ ├── convert_longformer_original_pytorch_lightning_to_pytorch.py │ │ │ │ ├── modeling_longformer.py │ │ │ │ ├── modeling_tf_longformer.py │ │ │ │ ├── tokenization_longformer.py │ │ │ │ └── tokenization_longformer_fast.py │ │ │ ├── lxmert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_lxmert.py │ │ │ │ ├── convert_lxmert_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_lxmert.py │ │ │ │ ├── modeling_tf_lxmert.py │ │ │ │ ├── tokenization_lxmert.py │ │ │ │ └── tokenization_lxmert_fast.py │ │ │ ├── m2m_100/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_m2m_100.py │ │ │ │ ├── convert_m2m100_original_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_m2m_100.py │ │ │ │ └── tokenization_m2m_100.py │ │ │ ├── marian/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_marian.py │ │ │ │ ├── convert_marian_tatoeba_to_pytorch.py │ │ │ │ ├── convert_marian_to_pytorch.py │ │ │ │ ├── modeling_marian.py │ │ │ │ ├── modeling_tf_marian.py │ │ │ │ └── tokenization_marian.py │ │ │ ├── mbart/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_mbart.py │ │ │ │ ├── convert_mbart_original_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_mbart.py │ │ │ │ ├── modeling_tf_mbart.py │ │ │ │ ├── tokenization_mbart.py │ │ │ │ ├── tokenization_mbart50.py │ │ │ │ ├── tokenization_mbart50_fast.py │ │ │ │ └── tokenization_mbart_fast.py │ │ │ ├── mmbt/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_mmbt.py │ │ │ │ └── modeling_mmbt.py │ │ │ ├── mobilebert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_mobilebert.py │ │ │ │ ├── convert_mobilebert_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_mobilebert.py │ │ │ │ ├── modeling_tf_mobilebert.py │ │ │ │ ├── tokenization_mobilebert.py │ │ │ │ └── tokenization_mobilebert_fast.py │ │ │ ├── mpnet/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_mpnet.py │ │ │ │ ├── modeling_mpnet.py │ │ │ │ ├── modeling_tf_mpnet.py │ │ │ │ ├── tokenization_mpnet.py │ │ │ │ └── tokenization_mpnet_fast.py │ │ │ ├── mt5/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_mt5.py │ │ │ │ ├── modeling_mt5.py │ │ │ │ └── modeling_tf_mt5.py │ │ │ ├── openai/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_openai.py │ │ │ │ ├── convert_openai_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_openai.py │ │ │ │ ├── modeling_tf_openai.py │ │ │ │ ├── tokenization_openai.py │ │ │ │ └── tokenization_openai_fast.py │ │ │ ├── pegasus/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_pegasus.py │ │ │ │ ├── convert_pegasus_tf_to_pytorch.py │ │ │ │ ├── modeling_pegasus.py │ │ │ │ ├── modeling_tf_pegasus.py │ │ │ │ ├── tokenization_pegasus.py │ │ │ │ └── tokenization_pegasus_fast.py │ │ │ ├── phobert/ │ │ │ │ ├── __init__.py │ │ │ │ └── tokenization_phobert.py │ │ │ ├── prophetnet/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_prophetnet.py │ │ │ │ ├── convert_prophetnet_original_pytorch_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_prophetnet.py │ │ │ │ └── tokenization_prophetnet.py │ │ │ ├── rag/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_rag.py │ │ │ │ ├── modeling_rag.py │ │ │ │ ├── modeling_tf_rag.py │ │ │ │ ├── retrieval_rag.py │ │ │ │ └── tokenization_rag.py │ │ │ ├── reformer/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_reformer.py │ │ │ │ ├── convert_reformer_trax_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_reformer.py │ │ │ │ ├── tokenization_reformer.py │ │ │ │ └── tokenization_reformer_fast.py │ │ │ ├── retribert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_retribert.py │ │ │ │ ├── modeling_retribert.py │ │ │ │ ├── tokenization_retribert.py │ │ │ │ └── tokenization_retribert_fast.py │ │ │ ├── roberta/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_roberta.py │ │ │ │ ├── convert_roberta_original_pytorch_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_flax_roberta.py │ │ │ │ ├── modeling_roberta.py │ │ │ │ ├── modeling_tf_roberta.py │ │ │ │ ├── tokenization_roberta.py │ │ │ │ └── tokenization_roberta_fast.py │ │ │ ├── speech_to_text/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_speech_to_text.py │ │ │ │ ├── convert_s2t_fairseq_to_tfms.py │ │ │ │ ├── feature_extraction_speech_to_text.py │ │ │ │ ├── modeling_speech_to_text.py │ │ │ │ ├── processing_speech_to_text.py │ │ │ │ └── tokenization_speech_to_text.py │ │ │ ├── squeezebert/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_squeezebert.py │ │ │ │ ├── modeling_squeezebert.py │ │ │ │ ├── tokenization_squeezebert.py │ │ │ │ └── tokenization_squeezebert_fast.py │ │ │ ├── t5/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_t5.py │ │ │ │ ├── convert_t5_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_t5.py │ │ │ │ ├── modeling_tf_t5.py │ │ │ │ ├── tokenization_t5.py │ │ │ │ └── tokenization_t5_fast.py │ │ │ ├── tapas/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_tapas.py │ │ │ │ ├── convert_tapas_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_tapas.py │ │ │ │ └── tokenization_tapas.py │ │ │ ├── transfo_xl/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_transfo_xl.py │ │ │ │ ├── convert_transfo_xl_original_tf_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_tf_transfo_xl.py │ │ │ │ ├── modeling_tf_transfo_xl_utilities.py │ │ │ │ ├── modeling_transfo_xl.py │ │ │ │ ├── modeling_transfo_xl_utilities.py │ │ │ │ └── tokenization_transfo_xl.py │ │ │ ├── wav2vec2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_wav2vec2.py │ │ │ │ ├── convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py │ │ │ │ ├── feature_extraction_wav2vec2.py │ │ │ │ ├── modeling_wav2vec2.py │ │ │ │ ├── processing_wav2vec2.py │ │ │ │ └── tokenization_wav2vec2.py │ │ │ ├── xlm/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_xlm.py │ │ │ │ ├── convert_xlm_original_pytorch_checkpoint_to_pytorch.py │ │ │ │ ├── modeling_tf_xlm.py │ │ │ │ ├── modeling_xlm.py │ │ │ │ └── tokenization_xlm.py │ │ │ ├── xlm_prophetnet/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_xlm_prophetnet.py │ │ │ │ ├── modeling_xlm_prophetnet.py │ │ │ │ └── tokenization_xlm_prophetnet.py │ │ │ ├── xlm_roberta/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_xlm_roberta.py │ │ │ │ ├── modeling_tf_xlm_roberta.py │ │ │ │ ├── modeling_xlm_roberta.py │ │ │ │ ├── tokenization_xlm_roberta.py │ │ │ │ └── tokenization_xlm_roberta_fast.py │ │ │ └── xlnet/ │ │ │ ├── __init__.py │ │ │ ├── configuration_xlnet.py │ │ │ ├── convert_xlnet_original_tf_checkpoint_to_pytorch.py │ │ │ ├── modeling_tf_xlnet.py │ │ │ ├── modeling_xlnet.py │ │ │ ├── tokenization_xlnet.py │ │ │ └── tokenization_xlnet_fast.py │ │ ├── optimization.py │ │ ├── optimization_tf.py │ │ ├── pipelines/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── conversational.py │ │ │ ├── feature_extraction.py │ │ │ ├── fill_mask.py │ │ │ ├── question_answering.py │ │ │ ├── table_question_answering.py │ │ │ ├── text2text_generation.py │ │ │ ├── text_classification.py │ │ │ ├── text_generation.py │ │ │ ├── token_classification.py │ │ │ └── zero_shot_classification.py │ │ ├── sagemaker/ │ │ │ ├── __init__.py │ │ │ ├── trainer_sm.py │ │ │ └── training_args_sm.py │ │ ├── testing_utils.py │ │ ├── tokenization_utils.py │ │ ├── tokenization_utils_base.py │ │ ├── tokenization_utils_fast.py │ │ ├── trainer.py │ │ ├── trainer_callback.py │ │ ├── trainer_pt_utils.py │ │ ├── trainer_seq2seq.py │ │ ├── trainer_tf.py │ │ ├── trainer_utils.py │ │ ├── training_args.py │ │ ├── training_args_seq2seq.py │ │ ├── training_args_tf.py │ │ └── utils/ │ │ ├── __init__.py │ │ ├── dummy_flax_objects.py │ │ ├── dummy_pt_objects.py │ │ ├── dummy_sentencepiece_objects.py │ │ ├── dummy_tf_objects.py │ │ ├── dummy_tokenizers_objects.py │ │ ├── hp_naming.py │ │ ├── logging.py │ │ ├── model_parallel_utils.py │ │ ├── modeling_auto_mapping.py │ │ ├── notebook.py │ │ ├── sentencepiece_model_pb2.py │ │ └── versions.py │ ├── templates/ │ │ ├── adding_a_new_example_script/ │ │ │ ├── README.md │ │ │ ├── cookiecutter.json │ │ │ └── {{cookiecutter.directory_name}}/ │ │ │ └── run_{{cookiecutter.example_shortcut}}.py │ │ └── adding_a_new_model/ │ │ ├── ADD_NEW_MODEL_PROPOSAL_TEMPLATE.md │ │ ├── README.md │ │ ├── cookiecutter-template-{{cookiecutter.modelname}}/ │ │ │ ├── __init__.py │ │ │ ├── configuration.json │ │ │ ├── configuration_{{cookiecutter.lowercase_modelname}}.py │ │ │ ├── modeling_tf_{{cookiecutter.lowercase_modelname}}.py │ │ │ ├── modeling_{{cookiecutter.lowercase_modelname}}.py │ │ │ ├── test_modeling_tf_{{cookiecutter.lowercase_modelname}}.py │ │ │ ├── test_modeling_{{cookiecutter.lowercase_modelname}}.py │ │ │ ├── to_replace_{{cookiecutter.lowercase_modelname}}.py │ │ │ ├── tokenization_fast_{{cookiecutter.lowercase_modelname}}.py │ │ │ ├── tokenization_{{cookiecutter.lowercase_modelname}}.py │ │ │ └── {{cookiecutter.lowercase_modelname}}.rst │ │ ├── cookiecutter.json │ │ ├── open_model_proposals/ │ │ │ ├── ADD_BIG_BIRD.md │ │ │ └── README.md │ │ └── tests/ │ │ ├── encoder-bert-tokenizer.json │ │ ├── pt-encoder-bert-tokenizer.json │ │ ├── pt-seq-2-seq-bart-tokenizer.json │ │ ├── standalone.json │ │ ├── tf-encoder-bert-tokenizer.json │ │ └── tf-seq-2-seq-bart-tokenizer.json │ ├── tests/ │ │ ├── __init__.py │ │ ├── conftest.py │ │ ├── fixtures/ │ │ │ ├── dummy-config.json │ │ │ ├── empty.txt │ │ │ ├── input.txt │ │ │ ├── sample_text.txt │ │ │ ├── sample_text_no_unicode.txt │ │ │ ├── spiece.model │ │ │ ├── test_sentencepiece.model │ │ │ ├── test_sentencepiece_bpe.model │ │ │ ├── test_sentencepiece_no_bos.model │ │ │ └── tests_samples/ │ │ │ ├── .gitignore │ │ │ ├── GermEval/ │ │ │ │ ├── dev.txt │ │ │ │ ├── labels.txt │ │ │ │ └── train.txt │ │ │ ├── MRPC/ │ │ │ │ ├── dev.tsv │ │ │ │ └── train.tsv │ │ │ ├── SQUAD/ │ │ │ │ └── sample.json │ │ │ ├── STS-B/ │ │ │ │ ├── dev.tsv │ │ │ │ └── train.tsv │ │ │ ├── conll/ │ │ │ │ └── sample.json │ │ │ ├── swag/ │ │ │ │ └── sample.json │ │ │ ├── wiki_text/ │ │ │ │ └── wiki_00 │ │ │ ├── wmt16/ │ │ │ │ └── sample.json │ │ │ └── xsum/ │ │ │ └── sample.json │ │ ├── test_activations.py │ │ ├── test_activations_tf.py │ │ ├── test_benchmark.py │ │ ├── test_benchmark_tf.py │ │ ├── test_cli.py │ │ ├── test_configuration_auto.py │ │ ├── test_configuration_common.py │ │ ├── test_data_collator.py │ │ ├── test_doc_samples.py │ │ ├── test_feature_extraction_common.py │ │ ├── test_feature_extraction_speech_to_text.py │ │ ├── test_feature_extraction_wav2vec2.py │ │ ├── test_file_utils.py │ │ ├── test_flax_auto.py │ │ ├── test_generation_beam_search.py │ │ ├── test_generation_logits_process.py │ │ ├── test_generation_stopping_criteria.py │ │ ├── test_generation_utils.py │ │ ├── test_hf_api.py │ │ ├── test_hf_argparser.py │ │ ├── test_logging.py │ │ ├── test_model_card.py │ │ ├── test_model_output.py │ │ ├── test_modeling_albert.py │ │ ├── test_modeling_auto.py │ │ ├── test_modeling_bart.py │ │ ├── test_modeling_bert.py │ │ ├── test_modeling_bert_generation.py │ │ ├── test_modeling_blenderbot.py │ │ ├── test_modeling_blenderbot_small.py │ │ ├── test_modeling_bort.py │ │ ├── test_modeling_camembert.py │ │ ├── test_modeling_common.py │ │ ├── test_modeling_convbert.py │ │ ├── test_modeling_ctrl.py │ │ ├── test_modeling_deberta.py │ │ ├── test_modeling_deberta_v2.py │ │ ├── test_modeling_distilbert.py │ │ ├── test_modeling_dpr.py │ │ ├── test_modeling_electra.py │ │ ├── test_modeling_encoder_decoder.py │ │ ├── test_modeling_flaubert.py │ │ ├── test_modeling_flax_bert.py │ │ ├── test_modeling_flax_common.py │ │ ├── test_modeling_flax_roberta.py │ │ ├── test_modeling_fsmt.py │ │ ├── test_modeling_funnel.py │ │ ├── test_modeling_gpt2.py │ │ ├── test_modeling_ibert.py │ │ ├── test_modeling_layoutlm.py │ │ ├── test_modeling_led.py │ │ ├── test_modeling_longformer.py │ │ ├── test_modeling_lxmert.py │ │ ├── test_modeling_m2m_100.py │ │ ├── test_modeling_marian.py │ │ ├── test_modeling_mbart.py │ │ ├── test_modeling_mobilebert.py │ │ ├── test_modeling_mpnet.py │ │ ├── test_modeling_mt5.py │ │ ├── test_modeling_openai.py │ │ ├── test_modeling_pegasus.py │ │ ├── test_modeling_prophetnet.py │ │ ├── test_modeling_rag.py │ │ ├── test_modeling_reformer.py │ │ ├── test_modeling_roberta.py │ │ ├── test_modeling_speech_to_text.py │ │ ├── test_modeling_squeezebert.py │ │ ├── test_modeling_t5.py │ │ ├── test_modeling_tapas.py │ │ ├── test_modeling_tf_albert.py │ │ ├── test_modeling_tf_auto.py │ │ ├── test_modeling_tf_bart.py │ │ ├── test_modeling_tf_bert.py │ │ ├── test_modeling_tf_blenderbot.py │ │ ├── test_modeling_tf_blenderbot_small.py │ │ ├── test_modeling_tf_bort.py │ │ ├── test_modeling_tf_camembert.py │ │ ├── test_modeling_tf_common.py │ │ ├── test_modeling_tf_convbert.py │ │ ├── test_modeling_tf_ctrl.py │ │ ├── test_modeling_tf_distilbert.py │ │ ├── test_modeling_tf_dpr.py │ │ ├── test_modeling_tf_electra.py │ │ ├── test_modeling_tf_flaubert.py │ │ ├── test_modeling_tf_funnel.py │ │ ├── test_modeling_tf_gpt2.py │ │ ├── test_modeling_tf_led.py │ │ ├── test_modeling_tf_longformer.py │ │ ├── test_modeling_tf_lxmert.py │ │ ├── test_modeling_tf_marian.py │ │ ├── test_modeling_tf_mbart.py │ │ ├── test_modeling_tf_mobilebert.py │ │ ├── test_modeling_tf_mpnet.py │ │ ├── test_modeling_tf_mt5.py │ │ ├── test_modeling_tf_openai.py │ │ ├── test_modeling_tf_pegasus.py │ │ ├── test_modeling_tf_pytorch.py │ │ ├── test_modeling_tf_rag.py │ │ ├── test_modeling_tf_roberta.py │ │ ├── test_modeling_tf_t5.py │ │ ├── test_modeling_tf_transfo_xl.py │ │ ├── test_modeling_tf_xlm.py │ │ ├── test_modeling_tf_xlm_roberta.py │ │ ├── test_modeling_tf_xlnet.py │ │ ├── test_modeling_transfo_xl.py │ │ ├── test_modeling_wav2vec2.py │ │ ├── test_modeling_xlm.py │ │ ├── test_modeling_xlm_prophetnet.py │ │ ├── test_modeling_xlm_roberta.py │ │ ├── test_modeling_xlnet.py │ │ ├── test_offline.py │ │ ├── test_onnx.py │ │ ├── test_optimization.py │ │ ├── test_optimization_tf.py │ │ ├── test_pipelines_common.py │ │ ├── test_pipelines_conversational.py │ │ ├── test_pipelines_feature_extraction.py │ │ ├── test_pipelines_fill_mask.py │ │ ├── test_pipelines_ner.py │ │ ├── test_pipelines_question_answering.py │ │ ├── test_pipelines_sentiment_analysis.py │ │ ├── test_pipelines_summarization.py │ │ ├── test_pipelines_table_question_answering.py │ │ ├── test_pipelines_text2text_generation.py │ │ ├── test_pipelines_text_generation.py │ │ ├── test_pipelines_translation.py │ │ ├── test_pipelines_zero_shot.py │ │ ├── test_processor_speech_to_text.py │ │ ├── test_processor_wav2vec2.py │ │ ├── test_retrieval_rag.py │ │ ├── test_sequence_feature_extraction_common.py │ │ ├── test_skip_decorators.py │ │ ├── test_tokenization_albert.py │ │ ├── test_tokenization_auto.py │ │ ├── test_tokenization_bart.py │ │ ├── test_tokenization_barthez.py │ │ ├── test_tokenization_bert.py │ │ ├── test_tokenization_bert_generation.py │ │ ├── test_tokenization_bert_japanese.py │ │ ├── test_tokenization_bertweet.py │ │ ├── test_tokenization_blenderbot.py │ │ ├── test_tokenization_camembert.py │ │ ├── test_tokenization_common.py │ │ ├── test_tokenization_ctrl.py │ │ ├── test_tokenization_deberta.py │ │ ├── test_tokenization_deberta_v2.py │ │ ├── test_tokenization_distilbert.py │ │ ├── test_tokenization_dpr.py │ │ ├── test_tokenization_fsmt.py │ │ ├── test_tokenization_funnel.py │ │ ├── test_tokenization_gpt2.py │ │ ├── test_tokenization_herbert.py │ │ ├── test_tokenization_layoutlm.py │ │ ├── test_tokenization_lxmert.py │ │ ├── test_tokenization_m2m_100.py │ │ ├── test_tokenization_marian.py │ │ ├── test_tokenization_mbart.py │ │ ├── test_tokenization_mbart50.py │ │ ├── test_tokenization_mpnet.py │ │ ├── test_tokenization_openai.py │ │ ├── test_tokenization_pegasus.py │ │ ├── test_tokenization_phobert.py │ │ ├── test_tokenization_prophetnet.py │ │ ├── test_tokenization_rag.py │ │ ├── test_tokenization_reformer.py │ │ ├── test_tokenization_roberta.py │ │ ├── test_tokenization_small_blenderbot.py │ │ ├── test_tokenization_speech_to_text.py │ │ ├── test_tokenization_squeezebert.py │ │ ├── test_tokenization_t5.py │ │ ├── test_tokenization_tapas.py │ │ ├── test_tokenization_transfo_xl.py │ │ ├── test_tokenization_utils.py │ │ ├── test_tokenization_wav2vec2.py │ │ ├── test_tokenization_xlm.py │ │ ├── test_tokenization_xlm_prophetnet.py │ │ ├── test_tokenization_xlm_roberta.py │ │ ├── test_tokenization_xlnet.py │ │ ├── test_trainer.py │ │ ├── test_trainer_callback.py │ │ ├── test_trainer_distributed.py │ │ ├── test_trainer_seq2seq.py │ │ ├── test_trainer_tpu.py │ │ ├── test_trainer_utils.py │ │ ├── test_utils_check_copies.py │ │ └── test_versions_utils.py │ ├── utils/ │ │ ├── check_copies.py │ │ ├── check_dummies.py │ │ ├── check_repo.py │ │ ├── check_table.py │ │ ├── check_tf_ops.py │ │ ├── class_mapping_update.py │ │ ├── convert.py │ │ ├── download_glue_data.py │ │ ├── get_modified_files.py │ │ ├── link_tester.py │ │ ├── notification_service.py │ │ ├── release.py │ │ ├── split_lora.py │ │ ├── style_doc.py │ │ └── tf_ops/ │ │ └── onnx.json │ └── valohai.yaml ├── loralib/ │ ├── __init__.py │ ├── layers.py │ └── utils.py └── setup.py