gitextract_holo9v9h/

├── .gitignore
├── README.md
├── __init__.py
├── build_dataset.py
├── data/
│   └── tiny_data/
│       ├── test.json
│       └── train/
│           └── train.json
├── ds_zero2_no_offload.json
├── ds_zero3_nvme_offload.json
├── ds_zero3_offload.json
├── environment.yml
├── flash_attn_patch.py
├── peft/
│   ├── __init__.py
│   ├── mapping.py
│   ├── peft_model.py
│   ├── tuners/
│   │   ├── __init__.py
│   │   ├── lora.py
│   │   ├── p_tuning.py
│   │   ├── prefix_tuning.py
│   │   └── prompt_tuning.py
│   └── utils/
│       ├── __init__.py
│       ├── adapters_utils.py
│       ├── config.py
│       ├── other.py
│       └── save_and_load.py
├── requirements.txt
├── run_loramoe.py
├── run_loramoe.sh
└── transformers/
    ├── __init__.py
    ├── activations.py
    ├── activations_tf.py
    ├── audio_utils.py
    ├── benchmark/
    │   ├── __init__.py
    │   ├── benchmark.py
    │   ├── benchmark_args.py
    │   ├── benchmark_args_tf.py
    │   ├── benchmark_args_utils.py
    │   ├── benchmark_tf.py
    │   └── benchmark_utils.py
    ├── commands/
    │   ├── __init__.py
    │   ├── add_new_model.py
    │   ├── add_new_model_like.py
    │   ├── convert.py
    │   ├── download.py
    │   ├── env.py
    │   ├── lfs.py
    │   ├── pt_to_tf.py
    │   ├── run.py
    │   ├── serving.py
    │   ├── train.py
    │   ├── transformers_cli.py
    │   └── user.py
    ├── configuration_utils.py
    ├── convert_graph_to_onnx.py
    ├── convert_pytorch_checkpoint_to_tf2.py
    ├── convert_slow_tokenizer.py
    ├── convert_slow_tokenizers_checkpoints_to_fast.py
    ├── convert_tf_hub_seq_to_seq_bert_to_pytorch.py
    ├── data/
    │   ├── __init__.py
    │   ├── data_collator.py
    │   ├── datasets/
    │   │   ├── __init__.py
    │   │   ├── glue.py
    │   │   ├── language_modeling.py
    │   │   └── squad.py
    │   ├── metrics/
    │   │   ├── __init__.py
    │   │   └── squad_metrics.py
    │   └── processors/
    │       ├── __init__.py
    │       ├── glue.py
    │       ├── squad.py
    │       ├── utils.py
    │       └── xnli.py
    ├── debug_utils.py
    ├── deepspeed.py
    ├── dependency_versions_check.py
    ├── dependency_versions_table.py
    ├── dynamic_module_utils.py
    ├── feature_extraction_sequence_utils.py
    ├── feature_extraction_utils.py
    ├── file_utils.py
    ├── generation/
    │   ├── __init__.py
    │   ├── beam_constraints.py
    │   ├── beam_search.py
    │   ├── configuration_utils.py
    │   ├── flax_logits_process.py
    │   ├── flax_utils.py
    │   ├── logits_process.py
    │   ├── stopping_criteria.py
    │   ├── streamers.py
    │   ├── tf_logits_process.py
    │   ├── tf_utils.py
    │   └── utils.py
    ├── generation_flax_utils.py
    ├── generation_tf_utils.py
    ├── generation_utils.py
    ├── hf_argparser.py
    ├── image_processing_utils.py
    ├── image_transforms.py
    ├── image_utils.py
    ├── integrations.py
    ├── keras_callbacks.py
    ├── kernels/
    │   ├── deformable_detr/
    │   │   ├── cpu/
    │   │   │   ├── ms_deform_attn_cpu.cpp
    │   │   │   └── ms_deform_attn_cpu.h
    │   │   ├── cuda/
    │   │   │   ├── ms_deform_attn_cuda.cu
    │   │   │   ├── ms_deform_attn_cuda.cuh
    │   │   │   ├── ms_deform_attn_cuda.h
    │   │   │   └── ms_deform_im2col_cuda.cuh
    │   │   ├── ms_deform_attn.h
    │   │   └── vision.cpp
    │   ├── rwkv/
    │   │   ├── wkv_cuda.cu
    │   │   ├── wkv_cuda_bf16.cu
    │   │   └── wkv_op.cpp
    │   └── yoso/
    │       ├── common.h
    │       ├── common_cuda.h
    │       ├── common_cuda_device.h
    │       ├── fast_lsh_cumulation.cu
    │       ├── fast_lsh_cumulation.h
    │       ├── fast_lsh_cumulation_cuda.cu
    │       ├── fast_lsh_cumulation_cuda.h
    │       └── fast_lsh_cumulation_torch.cpp
    ├── modelcard.py
    ├── modeling_flax_outputs.py
    ├── modeling_flax_pytorch_utils.py
    ├── modeling_flax_utils.py
    ├── modeling_outputs.py
    ├── modeling_tf_outputs.py
    ├── modeling_tf_pytorch_utils.py
    ├── modeling_tf_utils.py
    ├── modeling_utils.py
    ├── models/
    │   ├── __init__.py
    │   ├── albert/
    │   │   ├── __init__.py
    │   │   ├── configuration_albert.py
    │   │   ├── convert_albert_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_albert.py
    │   │   ├── modeling_flax_albert.py
    │   │   ├── modeling_tf_albert.py
    │   │   ├── tokenization_albert.py
    │   │   └── tokenization_albert_fast.py
    │   ├── align/
    │   │   ├── __init__.py
    │   │   ├── configuration_align.py
    │   │   ├── convert_align_tf_to_hf.py
    │   │   ├── modeling_align.py
    │   │   └── processing_align.py
    │   ├── altclip/
    │   │   ├── __init__.py
    │   │   ├── configuration_altclip.py
    │   │   ├── modeling_altclip.py
    │   │   └── processing_altclip.py
    │   ├── audio_spectrogram_transformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_audio_spectrogram_transformer.py
    │   │   ├── convert_audio_spectrogram_transformer_original_to_pytorch.py
    │   │   ├── feature_extraction_audio_spectrogram_transformer.py
    │   │   └── modeling_audio_spectrogram_transformer.py
    │   ├── auto/
    │   │   ├── __init__.py
    │   │   ├── auto_factory.py
    │   │   ├── configuration_auto.py
    │   │   ├── feature_extraction_auto.py
    │   │   ├── image_processing_auto.py
    │   │   ├── modeling_auto.py
    │   │   ├── modeling_flax_auto.py
    │   │   ├── modeling_tf_auto.py
    │   │   ├── processing_auto.py
    │   │   └── tokenization_auto.py
    │   ├── autoformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_autoformer.py
    │   │   └── modeling_autoformer.py
    │   ├── bart/
    │   │   ├── __init__.py
    │   │   ├── configuration_bart.py
    │   │   ├── convert_bart_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_bart.py
    │   │   ├── modeling_flax_bart.py
    │   │   ├── modeling_tf_bart.py
    │   │   ├── tokenization_bart.py
    │   │   └── tokenization_bart_fast.py
    │   ├── barthez/
    │   │   ├── __init__.py
    │   │   ├── tokenization_barthez.py
    │   │   └── tokenization_barthez_fast.py
    │   ├── bartpho/
    │   │   ├── __init__.py
    │   │   └── tokenization_bartpho.py
    │   ├── beit/
    │   │   ├── __init__.py
    │   │   ├── configuration_beit.py
    │   │   ├── convert_beit_unilm_to_pytorch.py
    │   │   ├── feature_extraction_beit.py
    │   │   ├── image_processing_beit.py
    │   │   ├── modeling_beit.py
    │   │   └── modeling_flax_beit.py
    │   ├── bert/
    │   │   ├── __init__.py
    │   │   ├── configuration_bert.py
    │   │   ├── convert_bert_original_tf2_checkpoint_to_pytorch.py
    │   │   ├── convert_bert_original_tf_checkpoint_to_pytorch.py
    │   │   ├── convert_bert_pytorch_checkpoint_to_original_tf.py
    │   │   ├── convert_bert_token_dropping_original_tf2_checkpoint_to_pytorch.py
    │   │   ├── modeling_bert.py
    │   │   ├── modeling_flax_bert.py
    │   │   ├── modeling_tf_bert.py
    │   │   ├── tokenization_bert.py
    │   │   ├── tokenization_bert_fast.py
    │   │   └── tokenization_bert_tf.py
    │   ├── bert_generation/
    │   │   ├── __init__.py
    │   │   ├── configuration_bert_generation.py
    │   │   ├── modeling_bert_generation.py
    │   │   └── tokenization_bert_generation.py
    │   ├── bert_japanese/
    │   │   ├── __init__.py
    │   │   └── tokenization_bert_japanese.py
    │   ├── bertweet/
    │   │   ├── __init__.py
    │   │   └── tokenization_bertweet.py
    │   ├── big_bird/
    │   │   ├── __init__.py
    │   │   ├── configuration_big_bird.py
    │   │   ├── convert_bigbird_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_big_bird.py
    │   │   ├── modeling_flax_big_bird.py
    │   │   ├── tokenization_big_bird.py
    │   │   └── tokenization_big_bird_fast.py
    │   ├── bigbird_pegasus/
    │   │   ├── __init__.py
    │   │   ├── configuration_bigbird_pegasus.py
    │   │   ├── convert_bigbird_pegasus_tf_to_pytorch.py
    │   │   └── modeling_bigbird_pegasus.py
    │   ├── biogpt/
    │   │   ├── __init__.py
    │   │   ├── configuration_biogpt.py
    │   │   ├── convert_biogpt_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_biogpt.py
    │   │   └── tokenization_biogpt.py
    │   ├── bit/
    │   │   ├── __init__.py
    │   │   ├── configuration_bit.py
    │   │   ├── convert_bit_to_pytorch.py
    │   │   ├── image_processing_bit.py
    │   │   └── modeling_bit.py
    │   ├── blenderbot/
    │   │   ├── __init__.py
    │   │   ├── configuration_blenderbot.py
    │   │   ├── convert_blenderbot_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_blenderbot.py
    │   │   ├── modeling_flax_blenderbot.py
    │   │   ├── modeling_tf_blenderbot.py
    │   │   ├── tokenization_blenderbot.py
    │   │   └── tokenization_blenderbot_fast.py
    │   ├── blenderbot_small/
    │   │   ├── __init__.py
    │   │   ├── configuration_blenderbot_small.py
    │   │   ├── modeling_blenderbot_small.py
    │   │   ├── modeling_flax_blenderbot_small.py
    │   │   ├── modeling_tf_blenderbot_small.py
    │   │   ├── tokenization_blenderbot_small.py
    │   │   └── tokenization_blenderbot_small_fast.py
    │   ├── blip/
    │   │   ├── __init__.py
    │   │   ├── configuration_blip.py
    │   │   ├── convert_blip_original_pytorch_to_hf.py
    │   │   ├── image_processing_blip.py
    │   │   ├── modeling_blip.py
    │   │   ├── modeling_blip_text.py
    │   │   ├── modeling_tf_blip.py
    │   │   ├── modeling_tf_blip_text.py
    │   │   └── processing_blip.py
    │   ├── blip_2/
    │   │   ├── __init__.py
    │   │   ├── configuration_blip_2.py
    │   │   ├── convert_blip_2_original_to_pytorch.py
    │   │   ├── modeling_blip_2.py
    │   │   └── processing_blip_2.py
    │   ├── bloom/
    │   │   ├── __init__.py
    │   │   ├── configuration_bloom.py
    │   │   ├── convert_bloom_original_checkpoint_to_pytorch.py
    │   │   ├── modeling_bloom.py
    │   │   └── tokenization_bloom_fast.py
    │   ├── bort/
    │   │   ├── __init__.py
    │   │   └── convert_bort_original_gluonnlp_checkpoint_to_pytorch.py
    │   ├── bridgetower/
    │   │   ├── __init__.py
    │   │   ├── configuration_bridgetower.py
    │   │   ├── image_processing_bridgetower.py
    │   │   ├── modeling_bridgetower.py
    │   │   └── processing_bridgetower.py
    │   ├── byt5/
    │   │   ├── __init__.py
    │   │   ├── convert_byt5_original_tf_checkpoint_to_pytorch.py
    │   │   └── tokenization_byt5.py
    │   ├── camembert/
    │   │   ├── __init__.py
    │   │   ├── configuration_camembert.py
    │   │   ├── modeling_camembert.py
    │   │   ├── modeling_tf_camembert.py
    │   │   ├── tokenization_camembert.py
    │   │   └── tokenization_camembert_fast.py
    │   ├── canine/
    │   │   ├── __init__.py
    │   │   ├── configuration_canine.py
    │   │   ├── convert_canine_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_canine.py
    │   │   └── tokenization_canine.py
    │   ├── chinese_clip/
    │   │   ├── __init__.py
    │   │   ├── configuration_chinese_clip.py
    │   │   ├── convert_chinese_clip_original_pytorch_to_hf.py
    │   │   ├── feature_extraction_chinese_clip.py
    │   │   ├── image_processing_chinese_clip.py
    │   │   ├── modeling_chinese_clip.py
    │   │   └── processing_chinese_clip.py
    │   ├── clap/
    │   │   ├── __init__.py
    │   │   ├── configuration_clap.py
    │   │   ├── convert_clap_original_pytorch_to_hf.py
    │   │   ├── feature_extraction_clap.py
    │   │   ├── modeling_clap.py
    │   │   └── processing_clap.py
    │   ├── clip/
    │   │   ├── __init__.py
    │   │   ├── configuration_clip.py
    │   │   ├── convert_clip_original_pytorch_to_hf.py
    │   │   ├── feature_extraction_clip.py
    │   │   ├── image_processing_clip.py
    │   │   ├── modeling_clip.py
    │   │   ├── modeling_flax_clip.py
    │   │   ├── modeling_tf_clip.py
    │   │   ├── processing_clip.py
    │   │   ├── tokenization_clip.py
    │   │   └── tokenization_clip_fast.py
    │   ├── clipseg/
    │   │   ├── __init__.py
    │   │   ├── configuration_clipseg.py
    │   │   ├── convert_clipseg_original_pytorch_to_hf.py
    │   │   ├── modeling_clipseg.py
    │   │   └── processing_clipseg.py
    │   ├── codegen/
    │   │   ├── __init__.py
    │   │   ├── configuration_codegen.py
    │   │   ├── modeling_codegen.py
    │   │   ├── tokenization_codegen.py
    │   │   └── tokenization_codegen_fast.py
    │   ├── conditional_detr/
    │   │   ├── __init__.py
    │   │   ├── configuration_conditional_detr.py
    │   │   ├── convert_conditional_detr_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── feature_extraction_conditional_detr.py
    │   │   ├── image_processing_conditional_detr.py
    │   │   └── modeling_conditional_detr.py
    │   ├── convbert/
    │   │   ├── __init__.py
    │   │   ├── configuration_convbert.py
    │   │   ├── convert_convbert_original_tf1_checkpoint_to_pytorch_and_tf2.py
    │   │   ├── modeling_convbert.py
    │   │   ├── modeling_tf_convbert.py
    │   │   ├── tokenization_convbert.py
    │   │   └── tokenization_convbert_fast.py
    │   ├── convnext/
    │   │   ├── __init__.py
    │   │   ├── configuration_convnext.py
    │   │   ├── convert_convnext_to_pytorch.py
    │   │   ├── feature_extraction_convnext.py
    │   │   ├── image_processing_convnext.py
    │   │   ├── modeling_convnext.py
    │   │   └── modeling_tf_convnext.py
    │   ├── convnextv2/
    │   │   ├── __init__.py
    │   │   ├── configuration_convnextv2.py
    │   │   ├── convert_convnextv2_to_pytorch.py
    │   │   └── modeling_convnextv2.py
    │   ├── cpm/
    │   │   ├── __init__.py
    │   │   ├── tokenization_cpm.py
    │   │   └── tokenization_cpm_fast.py
    │   ├── cpmant/
    │   │   ├── __init__.py
    │   │   ├── configuration_cpmant.py
    │   │   ├── modeling_cpmant.py
    │   │   └── tokenization_cpmant.py
    │   ├── ctrl/
    │   │   ├── __init__.py
    │   │   ├── configuration_ctrl.py
    │   │   ├── modeling_ctrl.py
    │   │   ├── modeling_tf_ctrl.py
    │   │   └── tokenization_ctrl.py
    │   ├── cvt/
    │   │   ├── __init__.py
    │   │   ├── configuration_cvt.py
    │   │   ├── convert_cvt_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_cvt.py
    │   │   └── modeling_tf_cvt.py
    │   ├── data2vec/
    │   │   ├── __init__.py
    │   │   ├── configuration_data2vec_audio.py
    │   │   ├── configuration_data2vec_text.py
    │   │   ├── configuration_data2vec_vision.py
    │   │   ├── convert_data2vec_audio_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── convert_data2vec_text_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── convert_data2vec_vision_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_data2vec_audio.py
    │   │   ├── modeling_data2vec_text.py
    │   │   ├── modeling_data2vec_vision.py
    │   │   └── modeling_tf_data2vec_vision.py
    │   ├── deberta/
    │   │   ├── __init__.py
    │   │   ├── configuration_deberta.py
    │   │   ├── modeling_deberta.py
    │   │   ├── modeling_tf_deberta.py
    │   │   ├── tokenization_deberta.py
    │   │   └── tokenization_deberta_fast.py
    │   ├── deberta_v2/
    │   │   ├── __init__.py
    │   │   ├── configuration_deberta_v2.py
    │   │   ├── modeling_deberta_v2.py
    │   │   ├── modeling_tf_deberta_v2.py
    │   │   ├── tokenization_deberta_v2.py
    │   │   └── tokenization_deberta_v2_fast.py
    │   ├── decision_transformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_decision_transformer.py
    │   │   └── modeling_decision_transformer.py
    │   ├── deformable_detr/
    │   │   ├── __init__.py
    │   │   ├── configuration_deformable_detr.py
    │   │   ├── convert_deformable_detr_to_pytorch.py
    │   │   ├── feature_extraction_deformable_detr.py
    │   │   ├── image_processing_deformable_detr.py
    │   │   ├── load_custom.py
    │   │   └── modeling_deformable_detr.py
    │   ├── deit/
    │   │   ├── __init__.py
    │   │   ├── configuration_deit.py
    │   │   ├── convert_deit_timm_to_pytorch.py
    │   │   ├── feature_extraction_deit.py
    │   │   ├── image_processing_deit.py
    │   │   ├── modeling_deit.py
    │   │   └── modeling_tf_deit.py
    │   ├── deta/
    │   │   ├── __init__.py
    │   │   ├── configuration_deta.py
    │   │   ├── convert_deta_resnet_to_pytorch.py
    │   │   ├── convert_deta_swin_to_pytorch.py
    │   │   ├── image_processing_deta.py
    │   │   └── modeling_deta.py
    │   ├── detr/
    │   │   ├── __init__.py
    │   │   ├── configuration_detr.py
    │   │   ├── convert_detr_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── convert_detr_to_pytorch.py
    │   │   ├── feature_extraction_detr.py
    │   │   ├── image_processing_detr.py
    │   │   └── modeling_detr.py
    │   ├── dialogpt/
    │   │   ├── __init__.py
    │   │   └── convert_dialogpt_original_pytorch_checkpoint_to_pytorch.py
    │   ├── dinat/
    │   │   ├── __init__.py
    │   │   ├── configuration_dinat.py
    │   │   └── modeling_dinat.py
    │   ├── distilbert/
    │   │   ├── __init__.py
    │   │   ├── configuration_distilbert.py
    │   │   ├── modeling_distilbert.py
    │   │   ├── modeling_flax_distilbert.py
    │   │   ├── modeling_tf_distilbert.py
    │   │   ├── tokenization_distilbert.py
    │   │   └── tokenization_distilbert_fast.py
    │   ├── dit/
    │   │   ├── __init__.py
    │   │   └── convert_dit_unilm_to_pytorch.py
    │   ├── donut/
    │   │   ├── __init__.py
    │   │   ├── configuration_donut_swin.py
    │   │   ├── convert_donut_to_pytorch.py
    │   │   ├── feature_extraction_donut.py
    │   │   ├── image_processing_donut.py
    │   │   ├── modeling_donut_swin.py
    │   │   └── processing_donut.py
    │   ├── dpr/
    │   │   ├── __init__.py
    │   │   ├── configuration_dpr.py
    │   │   ├── convert_dpr_original_checkpoint_to_pytorch.py
    │   │   ├── modeling_dpr.py
    │   │   ├── modeling_tf_dpr.py
    │   │   ├── tokenization_dpr.py
    │   │   └── tokenization_dpr_fast.py
    │   ├── dpt/
    │   │   ├── __init__.py
    │   │   ├── configuration_dpt.py
    │   │   ├── convert_dpt_hybrid_to_pytorch.py
    │   │   ├── convert_dpt_to_pytorch.py
    │   │   ├── feature_extraction_dpt.py
    │   │   ├── image_processing_dpt.py
    │   │   └── modeling_dpt.py
    │   ├── efficientformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_efficientformer.py
    │   │   ├── convert_efficientformer_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── image_processing_efficientformer.py
    │   │   ├── modeling_efficientformer.py
    │   │   └── modeling_tf_efficientformer.py
    │   ├── efficientnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_efficientnet.py
    │   │   ├── convert_efficientnet_to_pytorch.py
    │   │   ├── image_processing_efficientnet.py
    │   │   └── modeling_efficientnet.py
    │   ├── electra/
    │   │   ├── __init__.py
    │   │   ├── configuration_electra.py
    │   │   ├── convert_electra_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_electra.py
    │   │   ├── modeling_flax_electra.py
    │   │   ├── modeling_tf_electra.py
    │   │   ├── tokenization_electra.py
    │   │   └── tokenization_electra_fast.py
    │   ├── encoder_decoder/
    │   │   ├── __init__.py
    │   │   ├── configuration_encoder_decoder.py
    │   │   ├── modeling_encoder_decoder.py
    │   │   ├── modeling_flax_encoder_decoder.py
    │   │   └── modeling_tf_encoder_decoder.py
    │   ├── ernie/
    │   │   ├── __init__.py
    │   │   ├── configuration_ernie.py
    │   │   └── modeling_ernie.py
    │   ├── ernie_m/
    │   │   ├── __init__.py
    │   │   ├── configuration_ernie_m.py
    │   │   ├── modeling_ernie_m.py
    │   │   └── tokenization_ernie_m.py
    │   ├── esm/
    │   │   ├── __init__.py
    │   │   ├── configuration_esm.py
    │   │   ├── convert_esm.py
    │   │   ├── modeling_esm.py
    │   │   ├── modeling_esmfold.py
    │   │   ├── modeling_tf_esm.py
    │   │   ├── openfold_utils/
    │   │   │   ├── __init__.py
    │   │   │   ├── chunk_utils.py
    │   │   │   ├── data_transforms.py
    │   │   │   ├── feats.py
    │   │   │   ├── loss.py
    │   │   │   ├── protein.py
    │   │   │   ├── residue_constants.py
    │   │   │   ├── rigid_utils.py
    │   │   │   └── tensor_utils.py
    │   │   └── tokenization_esm.py
    │   ├── flaubert/
    │   │   ├── __init__.py
    │   │   ├── configuration_flaubert.py
    │   │   ├── modeling_flaubert.py
    │   │   ├── modeling_tf_flaubert.py
    │   │   └── tokenization_flaubert.py
    │   ├── flava/
    │   │   ├── __init__.py
    │   │   ├── configuration_flava.py
    │   │   ├── convert_dalle_to_flava_codebook.py
    │   │   ├── convert_flava_original_pytorch_to_hf.py
    │   │   ├── feature_extraction_flava.py
    │   │   ├── image_processing_flava.py
    │   │   ├── modeling_flava.py
    │   │   └── processing_flava.py
    │   ├── fnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_fnet.py
    │   │   ├── convert_fnet_original_flax_checkpoint_to_pytorch.py
    │   │   ├── modeling_fnet.py
    │   │   ├── tokenization_fnet.py
    │   │   └── tokenization_fnet_fast.py
    │   ├── focalnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_focalnet.py
    │   │   ├── convert_focalnet_to_hf_format.py
    │   │   └── modeling_focalnet.py
    │   ├── fsmt/
    │   │   ├── __init__.py
    │   │   ├── configuration_fsmt.py
    │   │   ├── convert_fsmt_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_fsmt.py
    │   │   └── tokenization_fsmt.py
    │   ├── funnel/
    │   │   ├── __init__.py
    │   │   ├── configuration_funnel.py
    │   │   ├── convert_funnel_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_funnel.py
    │   │   ├── modeling_tf_funnel.py
    │   │   ├── tokenization_funnel.py
    │   │   └── tokenization_funnel_fast.py
    │   ├── git/
    │   │   ├── __init__.py
    │   │   ├── configuration_git.py
    │   │   ├── convert_git_to_pytorch.py
    │   │   ├── modeling_git.py
    │   │   └── processing_git.py
    │   ├── glpn/
    │   │   ├── __init__.py
    │   │   ├── configuration_glpn.py
    │   │   ├── convert_glpn_to_pytorch.py
    │   │   ├── feature_extraction_glpn.py
    │   │   ├── image_processing_glpn.py
    │   │   └── modeling_glpn.py
    │   ├── gpt2/
    │   │   ├── __init__.py
    │   │   ├── configuration_gpt2.py
    │   │   ├── convert_gpt2_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_flax_gpt2.py
    │   │   ├── modeling_gpt2.py
    │   │   ├── modeling_tf_gpt2.py
    │   │   ├── tokenization_gpt2.py
    │   │   ├── tokenization_gpt2_fast.py
    │   │   └── tokenization_gpt2_tf.py
    │   ├── gpt_bigcode/
    │   │   ├── __init__.py
    │   │   ├── configuration_gpt_bigcode.py
    │   │   └── modeling_gpt_bigcode.py
    │   ├── gpt_neo/
    │   │   ├── __init__.py
    │   │   ├── configuration_gpt_neo.py
    │   │   ├── convert_gpt_neo_mesh_tf_to_pytorch.py
    │   │   ├── modeling_flax_gpt_neo.py
    │   │   └── modeling_gpt_neo.py
    │   ├── gpt_neox/
    │   │   ├── __init__.py
    │   │   ├── configuration_gpt_neox.py
    │   │   ├── modeling_gpt_neox.py
    │   │   └── tokenization_gpt_neox_fast.py
    │   ├── gpt_neox_japanese/
    │   │   ├── __init__.py
    │   │   ├── configuration_gpt_neox_japanese.py
    │   │   ├── modeling_gpt_neox_japanese.py
    │   │   └── tokenization_gpt_neox_japanese.py
    │   ├── gpt_sw3/
    │   │   ├── __init__.py
    │   │   ├── convert_megatron_to_pytorch.py
    │   │   └── tokenization_gpt_sw3.py
    │   ├── gptj/
    │   │   ├── __init__.py
    │   │   ├── configuration_gptj.py
    │   │   ├── modeling_flax_gptj.py
    │   │   ├── modeling_gptj.py
    │   │   └── modeling_tf_gptj.py
    │   ├── gptsan_japanese/
    │   │   ├── __init__.py
    │   │   ├── configuration_gptsan_japanese.py
    │   │   ├── convert_gptsan_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_gptsan_japanese.py
    │   │   └── tokenization_gptsan_japanese.py
    │   ├── graphormer/
    │   │   ├── __init__.py
    │   │   ├── algos_graphormer.pyx
    │   │   ├── collating_graphormer.py
    │   │   ├── configuration_graphormer.py
    │   │   └── modeling_graphormer.py
    │   ├── groupvit/
    │   │   ├── __init__.py
    │   │   ├── configuration_groupvit.py
    │   │   ├── convert_groupvit_nvlab_to_hf.py
    │   │   ├── modeling_groupvit.py
    │   │   └── modeling_tf_groupvit.py
    │   ├── herbert/
    │   │   ├── __init__.py
    │   │   ├── tokenization_herbert.py
    │   │   └── tokenization_herbert_fast.py
    │   ├── hubert/
    │   │   ├── __init__.py
    │   │   ├── configuration_hubert.py
    │   │   ├── convert_distilhubert_original_s3prl_checkpoint_to_pytorch.py
    │   │   ├── convert_hubert_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── convert_hubert_original_s3prl_checkpoint_to_pytorch.py
    │   │   ├── modeling_hubert.py
    │   │   └── modeling_tf_hubert.py
    │   ├── ibert/
    │   │   ├── __init__.py
    │   │   ├── configuration_ibert.py
    │   │   ├── modeling_ibert.py
    │   │   └── quant_modules.py
    │   ├── imagegpt/
    │   │   ├── __init__.py
    │   │   ├── configuration_imagegpt.py
    │   │   ├── convert_imagegpt_original_tf2_to_pytorch.py
    │   │   ├── feature_extraction_imagegpt.py
    │   │   ├── image_processing_imagegpt.py
    │   │   └── modeling_imagegpt.py
    │   ├── informer/
    │   │   ├── __init__.py
    │   │   ├── configuration_informer.py
    │   │   └── modeling_informer.py
    │   ├── jukebox/
    │   │   ├── __init__.py
    │   │   ├── configuration_jukebox.py
    │   │   ├── convert_jukebox.py
    │   │   ├── modeling_jukebox.py
    │   │   └── tokenization_jukebox.py
    │   ├── layoutlm/
    │   │   ├── __init__.py
    │   │   ├── configuration_layoutlm.py
    │   │   ├── modeling_layoutlm.py
    │   │   ├── modeling_tf_layoutlm.py
    │   │   ├── tokenization_layoutlm.py
    │   │   └── tokenization_layoutlm_fast.py
    │   ├── layoutlmv2/
    │   │   ├── __init__.py
    │   │   ├── configuration_layoutlmv2.py
    │   │   ├── feature_extraction_layoutlmv2.py
    │   │   ├── image_processing_layoutlmv2.py
    │   │   ├── modeling_layoutlmv2.py
    │   │   ├── processing_layoutlmv2.py
    │   │   ├── tokenization_layoutlmv2.py
    │   │   └── tokenization_layoutlmv2_fast.py
    │   ├── layoutlmv3/
    │   │   ├── __init__.py
    │   │   ├── configuration_layoutlmv3.py
    │   │   ├── feature_extraction_layoutlmv3.py
    │   │   ├── image_processing_layoutlmv3.py
    │   │   ├── modeling_layoutlmv3.py
    │   │   ├── modeling_tf_layoutlmv3.py
    │   │   ├── processing_layoutlmv3.py
    │   │   ├── tokenization_layoutlmv3.py
    │   │   └── tokenization_layoutlmv3_fast.py
    │   ├── layoutxlm/
    │   │   ├── __init__.py
    │   │   ├── processing_layoutxlm.py
    │   │   ├── tokenization_layoutxlm.py
    │   │   └── tokenization_layoutxlm_fast.py
    │   ├── led/
    │   │   ├── __init__.py
    │   │   ├── configuration_led.py
    │   │   ├── modeling_led.py
    │   │   ├── modeling_tf_led.py
    │   │   ├── tokenization_led.py
    │   │   └── tokenization_led_fast.py
    │   ├── levit/
    │   │   ├── __init__.py
    │   │   ├── configuration_levit.py
    │   │   ├── convert_levit_timm_to_pytorch.py
    │   │   ├── feature_extraction_levit.py
    │   │   ├── image_processing_levit.py
    │   │   └── modeling_levit.py
    │   ├── lilt/
    │   │   ├── __init__.py
    │   │   ├── configuration_lilt.py
    │   │   └── modeling_lilt.py
    │   ├── llama/
    │   │   ├── __init__.py
    │   │   ├── configuration_llama.py
    │   │   ├── convert_llama_weights_to_hf.py
    │   │   ├── modeling_llama.py
    │   │   ├── tokenization_llama.py
    │   │   └── tokenization_llama_fast.py
    │   ├── longformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_longformer.py
    │   │   ├── convert_longformer_original_pytorch_lightning_to_pytorch.py
    │   │   ├── modeling_longformer.py
    │   │   ├── modeling_tf_longformer.py
    │   │   ├── tokenization_longformer.py
    │   │   └── tokenization_longformer_fast.py
    │   ├── longt5/
    │   │   ├── __init__.py
    │   │   ├── configuration_longt5.py
    │   │   ├── convert_longt5x_checkpoint_to_flax.py
    │   │   ├── modeling_flax_longt5.py
    │   │   └── modeling_longt5.py
    │   ├── luke/
    │   │   ├── __init__.py
    │   │   ├── configuration_luke.py
    │   │   ├── convert_luke_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_luke.py
    │   │   └── tokenization_luke.py
    │   ├── lxmert/
    │   │   ├── __init__.py
    │   │   ├── configuration_lxmert.py
    │   │   ├── convert_lxmert_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_lxmert.py
    │   │   ├── modeling_tf_lxmert.py
    │   │   ├── tokenization_lxmert.py
    │   │   └── tokenization_lxmert_fast.py
    │   ├── m2m_100/
    │   │   ├── __init__.py
    │   │   ├── configuration_m2m_100.py
    │   │   ├── convert_m2m100_original_checkpoint_to_pytorch.py
    │   │   ├── modeling_m2m_100.py
    │   │   └── tokenization_m2m_100.py
    │   ├── marian/
    │   │   ├── __init__.py
    │   │   ├── configuration_marian.py
    │   │   ├── convert_marian_tatoeba_to_pytorch.py
    │   │   ├── convert_marian_to_pytorch.py
    │   │   ├── modeling_flax_marian.py
    │   │   ├── modeling_marian.py
    │   │   ├── modeling_tf_marian.py
    │   │   └── tokenization_marian.py
    │   ├── markuplm/
    │   │   ├── __init__.py
    │   │   ├── configuration_markuplm.py
    │   │   ├── feature_extraction_markuplm.py
    │   │   ├── modeling_markuplm.py
    │   │   ├── processing_markuplm.py
    │   │   ├── tokenization_markuplm.py
    │   │   └── tokenization_markuplm_fast.py
    │   ├── mask2former/
    │   │   ├── __init__.py
    │   │   ├── configuration_mask2former.py
    │   │   ├── convert_mask2former_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── image_processing_mask2former.py
    │   │   └── modeling_mask2former.py
    │   ├── maskformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_maskformer.py
    │   │   ├── configuration_maskformer_swin.py
    │   │   ├── convert_maskformer_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── convert_maskformer_resnet_to_pytorch.py
    │   │   ├── convert_maskformer_swin_to_pytorch.py
    │   │   ├── feature_extraction_maskformer.py
    │   │   ├── image_processing_maskformer.py
    │   │   ├── modeling_maskformer.py
    │   │   └── modeling_maskformer_swin.py
    │   ├── mbart/
    │   │   ├── __init__.py
    │   │   ├── configuration_mbart.py
    │   │   ├── convert_mbart_original_checkpoint_to_pytorch.py
    │   │   ├── modeling_flax_mbart.py
    │   │   ├── modeling_mbart.py
    │   │   ├── modeling_tf_mbart.py
    │   │   ├── tokenization_mbart.py
    │   │   └── tokenization_mbart_fast.py
    │   ├── mbart50/
    │   │   ├── __init__.py
    │   │   ├── tokenization_mbart50.py
    │   │   └── tokenization_mbart50_fast.py
    │   ├── mctct/
    │   │   ├── __init__.py
    │   │   ├── configuration_mctct.py
    │   │   ├── feature_extraction_mctct.py
    │   │   ├── modeling_mctct.py
    │   │   └── processing_mctct.py
    │   ├── mega/
    │   │   ├── __init__.py
    │   │   ├── configuration_mega.py
    │   │   ├── convert_mega_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_mega.py
    │   ├── megatron_bert/
    │   │   ├── __init__.py
    │   │   ├── configuration_megatron_bert.py
    │   │   ├── convert_megatron_bert_checkpoint.py
    │   │   └── modeling_megatron_bert.py
    │   ├── megatron_gpt2/
    │   │   ├── __init__.py
    │   │   ├── checkpoint_reshaping_and_interoperability.py
    │   │   └── convert_megatron_gpt2_checkpoint.py
    │   ├── mgp_str/
    │   │   ├── __init__.py
    │   │   ├── configuration_mgp_str.py
    │   │   ├── modeling_mgp_str.py
    │   │   ├── processing_mgp_str.py
    │   │   └── tokenization_mgp_str.py
    │   ├── mluke/
    │   │   ├── __init__.py
    │   │   ├── convert_mluke_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── tokenization_mluke.py
    │   ├── mmbt/
    │   │   ├── __init__.py
    │   │   ├── configuration_mmbt.py
    │   │   └── modeling_mmbt.py
    │   ├── mobilebert/
    │   │   ├── __init__.py
    │   │   ├── configuration_mobilebert.py
    │   │   ├── convert_mobilebert_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_mobilebert.py
    │   │   ├── modeling_tf_mobilebert.py
    │   │   ├── tokenization_mobilebert.py
    │   │   └── tokenization_mobilebert_fast.py
    │   ├── mobilenet_v1/
    │   │   ├── __init__.py
    │   │   ├── configuration_mobilenet_v1.py
    │   │   ├── convert_original_tf_checkpoint_to_pytorch.py
    │   │   ├── feature_extraction_mobilenet_v1.py
    │   │   ├── image_processing_mobilenet_v1.py
    │   │   └── modeling_mobilenet_v1.py
    │   ├── mobilenet_v2/
    │   │   ├── __init__.py
    │   │   ├── configuration_mobilenet_v2.py
    │   │   ├── convert_original_tf_checkpoint_to_pytorch.py
    │   │   ├── feature_extraction_mobilenet_v2.py
    │   │   ├── image_processing_mobilenet_v2.py
    │   │   └── modeling_mobilenet_v2.py
    │   ├── mobilevit/
    │   │   ├── __init__.py
    │   │   ├── configuration_mobilevit.py
    │   │   ├── convert_mlcvnets_to_pytorch.py
    │   │   ├── feature_extraction_mobilevit.py
    │   │   ├── image_processing_mobilevit.py
    │   │   ├── modeling_mobilevit.py
    │   │   └── modeling_tf_mobilevit.py
    │   ├── mobilevitv2/
    │   │   ├── __init__.py
    │   │   ├── configuration_mobilevitv2.py
    │   │   ├── convert_mlcvnets_to_pytorch.py
    │   │   └── modeling_mobilevitv2.py
    │   ├── mpnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_mpnet.py
    │   │   ├── modeling_mpnet.py
    │   │   ├── modeling_tf_mpnet.py
    │   │   ├── tokenization_mpnet.py
    │   │   └── tokenization_mpnet_fast.py
    │   ├── mt5/
    │   │   ├── __init__.py
    │   │   ├── configuration_mt5.py
    │   │   ├── modeling_flax_mt5.py
    │   │   ├── modeling_mt5.py
    │   │   └── modeling_tf_mt5.py
    │   ├── mvp/
    │   │   ├── __init__.py
    │   │   ├── configuration_mvp.py
    │   │   ├── modeling_mvp.py
    │   │   ├── tokenization_mvp.py
    │   │   └── tokenization_mvp_fast.py
    │   ├── nat/
    │   │   ├── __init__.py
    │   │   ├── configuration_nat.py
    │   │   └── modeling_nat.py
    │   ├── nezha/
    │   │   ├── __init__.py
    │   │   ├── configuration_nezha.py
    │   │   └── modeling_nezha.py
    │   ├── nllb/
    │   │   ├── __init__.py
    │   │   ├── tokenization_nllb.py
    │   │   └── tokenization_nllb_fast.py
    │   ├── nllb_moe/
    │   │   ├── __init__.py
    │   │   ├── configuration_nllb_moe.py
    │   │   ├── convert_nllb_moe_sharded_original_checkpoint_to_pytorch.py
    │   │   └── modeling_nllb_moe.py
    │   ├── nystromformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_nystromformer.py
    │   │   ├── convert_nystromformer_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_nystromformer.py
    │   ├── oneformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_oneformer.py
    │   │   ├── convert_to_hf_oneformer.py
    │   │   ├── image_processing_oneformer.py
    │   │   ├── modeling_oneformer.py
    │   │   └── processing_oneformer.py
    │   ├── open_llama/
    │   │   ├── __init__.py
    │   │   ├── configuration_open_llama.py
    │   │   └── modeling_open_llama.py
    │   ├── openai/
    │   │   ├── __init__.py
    │   │   ├── configuration_openai.py
    │   │   ├── convert_openai_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_openai.py
    │   │   ├── modeling_tf_openai.py
    │   │   ├── tokenization_openai.py
    │   │   └── tokenization_openai_fast.py
    │   ├── opt/
    │   │   ├── __init__.py
    │   │   ├── configuration_opt.py
    │   │   ├── convert_opt_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_flax_opt.py
    │   │   ├── modeling_opt.py
    │   │   └── modeling_tf_opt.py
    │   ├── owlvit/
    │   │   ├── __init__.py
    │   │   ├── configuration_owlvit.py
    │   │   ├── convert_owlvit_original_flax_to_hf.py
    │   │   ├── feature_extraction_owlvit.py
    │   │   ├── image_processing_owlvit.py
    │   │   ├── modeling_owlvit.py
    │   │   └── processing_owlvit.py
    │   ├── pegasus/
    │   │   ├── __init__.py
    │   │   ├── configuration_pegasus.py
    │   │   ├── convert_pegasus_tf_to_pytorch.py
    │   │   ├── modeling_flax_pegasus.py
    │   │   ├── modeling_pegasus.py
    │   │   ├── modeling_tf_pegasus.py
    │   │   ├── tokenization_pegasus.py
    │   │   └── tokenization_pegasus_fast.py
    │   ├── pegasus_x/
    │   │   ├── __init__.py
    │   │   ├── configuration_pegasus_x.py
    │   │   └── modeling_pegasus_x.py
    │   ├── perceiver/
    │   │   ├── __init__.py
    │   │   ├── configuration_perceiver.py
    │   │   ├── convert_perceiver_haiku_to_pytorch.py
    │   │   ├── feature_extraction_perceiver.py
    │   │   ├── image_processing_perceiver.py
    │   │   ├── modeling_perceiver.py
    │   │   └── tokenization_perceiver.py
    │   ├── phobert/
    │   │   ├── __init__.py
    │   │   └── tokenization_phobert.py
    │   ├── pix2struct/
    │   │   ├── __init__.py
    │   │   ├── configuration_pix2struct.py
    │   │   ├── convert_pix2struct_original_pytorch_to_hf.py
    │   │   ├── image_processing_pix2struct.py
    │   │   ├── modeling_pix2struct.py
    │   │   └── processing_pix2struct.py
    │   ├── plbart/
    │   │   ├── __init__.py
    │   │   ├── configuration_plbart.py
    │   │   ├── convert_plbart_original_checkpoint_to_torch.py
    │   │   ├── modeling_plbart.py
    │   │   └── tokenization_plbart.py
    │   ├── poolformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_poolformer.py
    │   │   ├── convert_poolformer_original_to_pytorch.py
    │   │   ├── feature_extraction_poolformer.py
    │   │   ├── image_processing_poolformer.py
    │   │   └── modeling_poolformer.py
    │   ├── prophetnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_prophetnet.py
    │   │   ├── convert_prophetnet_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_prophetnet.py
    │   │   └── tokenization_prophetnet.py
    │   ├── qdqbert/
    │   │   ├── __init__.py
    │   │   ├── configuration_qdqbert.py
    │   │   └── modeling_qdqbert.py
    │   ├── rag/
    │   │   ├── __init__.py
    │   │   ├── configuration_rag.py
    │   │   ├── modeling_rag.py
    │   │   ├── modeling_tf_rag.py
    │   │   ├── retrieval_rag.py
    │   │   └── tokenization_rag.py
    │   ├── realm/
    │   │   ├── __init__.py
    │   │   ├── configuration_realm.py
    │   │   ├── modeling_realm.py
    │   │   ├── retrieval_realm.py
    │   │   ├── tokenization_realm.py
    │   │   └── tokenization_realm_fast.py
    │   ├── reformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_reformer.py
    │   │   ├── convert_reformer_trax_checkpoint_to_pytorch.py
    │   │   ├── modeling_reformer.py
    │   │   ├── tokenization_reformer.py
    │   │   └── tokenization_reformer_fast.py
    │   ├── regnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_regnet.py
    │   │   ├── convert_regnet_seer_10b_to_pytorch.py
    │   │   ├── convert_regnet_to_pytorch.py
    │   │   ├── modeling_flax_regnet.py
    │   │   ├── modeling_regnet.py
    │   │   └── modeling_tf_regnet.py
    │   ├── rembert/
    │   │   ├── __init__.py
    │   │   ├── configuration_rembert.py
    │   │   ├── convert_rembert_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_rembert.py
    │   │   ├── modeling_tf_rembert.py
    │   │   ├── tokenization_rembert.py
    │   │   └── tokenization_rembert_fast.py
    │   ├── resnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_resnet.py
    │   │   ├── convert_resnet_to_pytorch.py
    │   │   ├── modeling_flax_resnet.py
    │   │   ├── modeling_resnet.py
    │   │   └── modeling_tf_resnet.py
    │   ├── retribert/
    │   │   ├── __init__.py
    │   │   ├── configuration_retribert.py
    │   │   ├── modeling_retribert.py
    │   │   ├── tokenization_retribert.py
    │   │   └── tokenization_retribert_fast.py
    │   ├── roberta/
    │   │   ├── __init__.py
    │   │   ├── configuration_roberta.py
    │   │   ├── convert_roberta_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_flax_roberta.py
    │   │   ├── modeling_roberta.py
    │   │   ├── modeling_tf_roberta.py
    │   │   ├── tokenization_roberta.py
    │   │   └── tokenization_roberta_fast.py
    │   ├── roberta_prelayernorm/
    │   │   ├── __init__.py
    │   │   ├── configuration_roberta_prelayernorm.py
    │   │   ├── convert_roberta_prelayernorm_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_flax_roberta_prelayernorm.py
    │   │   ├── modeling_roberta_prelayernorm.py
    │   │   └── modeling_tf_roberta_prelayernorm.py
    │   ├── roc_bert/
    │   │   ├── __init__.py
    │   │   ├── configuration_roc_bert.py
    │   │   ├── modeling_roc_bert.py
    │   │   └── tokenization_roc_bert.py
    │   ├── roformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_roformer.py
    │   │   ├── convert_roformer_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_flax_roformer.py
    │   │   ├── modeling_roformer.py
    │   │   ├── modeling_tf_roformer.py
    │   │   ├── tokenization_roformer.py
    │   │   ├── tokenization_roformer_fast.py
    │   │   └── tokenization_utils.py
    │   ├── rwkv/
    │   │   ├── __init__.py
    │   │   ├── configuration_rwkv.py
    │   │   ├── convert_rwkv_checkpoint_to_hf.py
    │   │   └── modeling_rwkv.py
    │   ├── sam/
    │   │   ├── __init__.py
    │   │   ├── configuration_sam.py
    │   │   ├── convert_sam_original_to_hf_format.py
    │   │   ├── image_processing_sam.py
    │   │   ├── modeling_sam.py
    │   │   ├── modeling_tf_sam.py
    │   │   └── processing_sam.py
    │   ├── segformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_segformer.py
    │   │   ├── convert_segformer_original_to_pytorch.py
    │   │   ├── feature_extraction_segformer.py
    │   │   ├── image_processing_segformer.py
    │   │   ├── modeling_segformer.py
    │   │   └── modeling_tf_segformer.py
    │   ├── sew/
    │   │   ├── __init__.py
    │   │   ├── configuration_sew.py
    │   │   ├── convert_sew_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_sew.py
    │   ├── sew_d/
    │   │   ├── __init__.py
    │   │   ├── configuration_sew_d.py
    │   │   ├── convert_sew_d_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_sew_d.py
    │   ├── speech_encoder_decoder/
    │   │   ├── __init__.py
    │   │   ├── configuration_speech_encoder_decoder.py
    │   │   ├── convert_mbart_wav2vec2_seq2seq_original_to_pytorch.py
    │   │   ├── convert_speech_to_text_wav2vec2_seq2seq_original_to_pytorch.py
    │   │   ├── modeling_flax_speech_encoder_decoder.py
    │   │   └── modeling_speech_encoder_decoder.py
    │   ├── speech_to_text/
    │   │   ├── __init__.py
    │   │   ├── configuration_speech_to_text.py
    │   │   ├── convert_s2t_fairseq_to_tfms.py
    │   │   ├── feature_extraction_speech_to_text.py
    │   │   ├── modeling_speech_to_text.py
    │   │   ├── modeling_tf_speech_to_text.py
    │   │   ├── processing_speech_to_text.py
    │   │   └── tokenization_speech_to_text.py
    │   ├── speech_to_text_2/
    │   │   ├── __init__.py
    │   │   ├── configuration_speech_to_text_2.py
    │   │   ├── modeling_speech_to_text_2.py
    │   │   ├── processing_speech_to_text_2.py
    │   │   └── tokenization_speech_to_text_2.py
    │   ├── speecht5/
    │   │   ├── __init__.py
    │   │   ├── configuration_speecht5.py
    │   │   ├── convert_hifigan.py
    │   │   ├── convert_speecht5_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── feature_extraction_speecht5.py
    │   │   ├── modeling_speecht5.py
    │   │   ├── processing_speecht5.py
    │   │   └── tokenization_speecht5.py
    │   ├── splinter/
    │   │   ├── __init__.py
    │   │   ├── configuration_splinter.py
    │   │   ├── modeling_splinter.py
    │   │   ├── tokenization_splinter.py
    │   │   └── tokenization_splinter_fast.py
    │   ├── squeezebert/
    │   │   ├── __init__.py
    │   │   ├── configuration_squeezebert.py
    │   │   ├── modeling_squeezebert.py
    │   │   ├── tokenization_squeezebert.py
    │   │   └── tokenization_squeezebert_fast.py
    │   ├── swiftformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_swiftformer.py
    │   │   ├── convert_swiftformer_original_to_hf.py
    │   │   └── modeling_swiftformer.py
    │   ├── swin/
    │   │   ├── __init__.py
    │   │   ├── configuration_swin.py
    │   │   ├── convert_swin_simmim_to_pytorch.py
    │   │   ├── convert_swin_timm_to_pytorch.py
    │   │   ├── modeling_swin.py
    │   │   └── modeling_tf_swin.py
    │   ├── swin2sr/
    │   │   ├── __init__.py
    │   │   ├── configuration_swin2sr.py
    │   │   ├── convert_swin2sr_original_to_pytorch.py
    │   │   ├── image_processing_swin2sr.py
    │   │   └── modeling_swin2sr.py
    │   ├── swinv2/
    │   │   ├── __init__.py
    │   │   ├── configuration_swinv2.py
    │   │   ├── convert_swinv2_timm_to_pytorch.py
    │   │   └── modeling_swinv2.py
    │   ├── switch_transformers/
    │   │   ├── __init__.py
    │   │   ├── configuration_switch_transformers.py
    │   │   ├── convert_big_switch.py
    │   │   ├── convert_switch_transformers_original_flax_checkpoint_to_pytorch.py
    │   │   └── modeling_switch_transformers.py
    │   ├── t5/
    │   │   ├── __init__.py
    │   │   ├── configuration_t5.py
    │   │   ├── convert_t5_original_tf_checkpoint_to_pytorch.py
    │   │   ├── convert_t5x_checkpoint_to_flax.py
    │   │   ├── convert_t5x_checkpoint_to_pytorch.py
    │   │   ├── modeling_flax_t5.py
    │   │   ├── modeling_t5.py
    │   │   ├── modeling_tf_t5.py
    │   │   ├── tokenization_t5.py
    │   │   └── tokenization_t5_fast.py
    │   ├── table_transformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_table_transformer.py
    │   │   ├── convert_table_transformer_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_table_transformer.py
    │   ├── tapas/
    │   │   ├── __init__.py
    │   │   ├── configuration_tapas.py
    │   │   ├── convert_tapas_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_tapas.py
    │   │   ├── modeling_tf_tapas.py
    │   │   └── tokenization_tapas.py
    │   ├── tapex/
    │   │   ├── __init__.py
    │   │   └── tokenization_tapex.py
    │   ├── time_series_transformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_time_series_transformer.py
    │   │   └── modeling_time_series_transformer.py
    │   ├── timesformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_timesformer.py
    │   │   ├── convert_timesformer_to_pytorch.py
    │   │   └── modeling_timesformer.py
    │   ├── timm_backbone/
    │   │   ├── __init__.py
    │   │   ├── configuration_timm_backbone.py
    │   │   └── modeling_timm_backbone.py
    │   ├── trajectory_transformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_trajectory_transformer.py
    │   │   ├── convert_trajectory_transformer_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_trajectory_transformer.py
    │   ├── transfo_xl/
    │   │   ├── __init__.py
    │   │   ├── configuration_transfo_xl.py
    │   │   ├── convert_transfo_xl_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_tf_transfo_xl.py
    │   │   ├── modeling_tf_transfo_xl_utilities.py
    │   │   ├── modeling_transfo_xl.py
    │   │   ├── modeling_transfo_xl_utilities.py
    │   │   └── tokenization_transfo_xl.py
    │   ├── trocr/
    │   │   ├── __init__.py
    │   │   ├── configuration_trocr.py
    │   │   ├── convert_trocr_unilm_to_pytorch.py
    │   │   ├── modeling_trocr.py
    │   │   └── processing_trocr.py
    │   ├── tvlt/
    │   │   ├── __init__.py
    │   │   ├── configuration_tvlt.py
    │   │   ├── feature_extraction_tvlt.py
    │   │   ├── image_processing_tvlt.py
    │   │   ├── modeling_tvlt.py
    │   │   └── processing_tvlt.py
    │   ├── unispeech/
    │   │   ├── __init__.py
    │   │   ├── configuration_unispeech.py
    │   │   ├── convert_unispeech_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_unispeech.py
    │   ├── unispeech_sat/
    │   │   ├── __init__.py
    │   │   ├── configuration_unispeech_sat.py
    │   │   ├── convert_unispeech_original_s3prl_checkpoint_to_pytorch.py
    │   │   ├── convert_unispeech_sat_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_unispeech_sat.py
    │   ├── upernet/
    │   │   ├── __init__.py
    │   │   ├── configuration_upernet.py
    │   │   ├── convert_convnext_upernet_to_pytorch.py
    │   │   ├── convert_swin_upernet_to_pytorch.py
    │   │   └── modeling_upernet.py
    │   ├── van/
    │   │   ├── __init__.py
    │   │   ├── configuration_van.py
    │   │   ├── convert_van_to_pytorch.py
    │   │   └── modeling_van.py
    │   ├── videomae/
    │   │   ├── __init__.py
    │   │   ├── configuration_videomae.py
    │   │   ├── convert_videomae_to_pytorch.py
    │   │   ├── feature_extraction_videomae.py
    │   │   ├── image_processing_videomae.py
    │   │   └── modeling_videomae.py
    │   ├── vilt/
    │   │   ├── __init__.py
    │   │   ├── configuration_vilt.py
    │   │   ├── convert_vilt_original_to_pytorch.py
    │   │   ├── feature_extraction_vilt.py
    │   │   ├── image_processing_vilt.py
    │   │   ├── modeling_vilt.py
    │   │   └── processing_vilt.py
    │   ├── vision_encoder_decoder/
    │   │   ├── __init__.py
    │   │   ├── configuration_vision_encoder_decoder.py
    │   │   ├── modeling_flax_vision_encoder_decoder.py
    │   │   ├── modeling_tf_vision_encoder_decoder.py
    │   │   └── modeling_vision_encoder_decoder.py
    │   ├── vision_text_dual_encoder/
    │   │   ├── __init__.py
    │   │   ├── configuration_vision_text_dual_encoder.py
    │   │   ├── modeling_flax_vision_text_dual_encoder.py
    │   │   ├── modeling_tf_vision_text_dual_encoder.py
    │   │   ├── modeling_vision_text_dual_encoder.py
    │   │   └── processing_vision_text_dual_encoder.py
    │   ├── visual_bert/
    │   │   ├── __init__.py
    │   │   ├── configuration_visual_bert.py
    │   │   ├── convert_visual_bert_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_visual_bert.py
    │   ├── vit/
    │   │   ├── __init__.py
    │   │   ├── configuration_vit.py
    │   │   ├── convert_dino_to_pytorch.py
    │   │   ├── convert_vit_timm_to_pytorch.py
    │   │   ├── feature_extraction_vit.py
    │   │   ├── image_processing_vit.py
    │   │   ├── modeling_flax_vit.py
    │   │   ├── modeling_tf_vit.py
    │   │   └── modeling_vit.py
    │   ├── vit_hybrid/
    │   │   ├── __init__.py
    │   │   ├── configuration_vit_hybrid.py
    │   │   ├── convert_vit_hybrid_timm_to_pytorch.py
    │   │   ├── image_processing_vit_hybrid.py
    │   │   └── modeling_vit_hybrid.py
    │   ├── vit_mae/
    │   │   ├── __init__.py
    │   │   ├── configuration_vit_mae.py
    │   │   ├── convert_vit_mae_to_pytorch.py
    │   │   ├── modeling_tf_vit_mae.py
    │   │   └── modeling_vit_mae.py
    │   ├── vit_msn/
    │   │   ├── __init__.py
    │   │   ├── configuration_vit_msn.py
    │   │   ├── convert_msn_to_pytorch.py
    │   │   └── modeling_vit_msn.py
    │   ├── wav2vec2/
    │   │   ├── __init__.py
    │   │   ├── configuration_wav2vec2.py
    │   │   ├── convert_wav2vec2_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── convert_wav2vec2_original_s3prl_checkpoint_to_pytorch.py
    │   │   ├── feature_extraction_wav2vec2.py
    │   │   ├── modeling_flax_wav2vec2.py
    │   │   ├── modeling_tf_wav2vec2.py
    │   │   ├── modeling_wav2vec2.py
    │   │   ├── processing_wav2vec2.py
    │   │   └── tokenization_wav2vec2.py
    │   ├── wav2vec2_conformer/
    │   │   ├── __init__.py
    │   │   ├── configuration_wav2vec2_conformer.py
    │   │   ├── convert_wav2vec2_conformer_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_wav2vec2_conformer.py
    │   ├── wav2vec2_phoneme/
    │   │   ├── __init__.py
    │   │   └── tokenization_wav2vec2_phoneme.py
    │   ├── wav2vec2_with_lm/
    │   │   ├── __init__.py
    │   │   └── processing_wav2vec2_with_lm.py
    │   ├── wavlm/
    │   │   ├── __init__.py
    │   │   ├── configuration_wavlm.py
    │   │   ├── convert_wavlm_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── convert_wavlm_original_s3prl_checkpoint_to_pytorch.py
    │   │   └── modeling_wavlm.py
    │   ├── whisper/
    │   │   ├── __init__.py
    │   │   ├── configuration_whisper.py
    │   │   ├── convert_openai_to_hf.py
    │   │   ├── english_normalizer.py
    │   │   ├── feature_extraction_whisper.py
    │   │   ├── modeling_flax_whisper.py
    │   │   ├── modeling_tf_whisper.py
    │   │   ├── modeling_whisper.py
    │   │   ├── processing_whisper.py
    │   │   ├── tokenization_whisper.py
    │   │   └── tokenization_whisper_fast.py
    │   ├── x_clip/
    │   │   ├── __init__.py
    │   │   ├── configuration_x_clip.py
    │   │   ├── convert_x_clip_original_pytorch_to_hf.py
    │   │   ├── modeling_x_clip.py
    │   │   └── processing_x_clip.py
    │   ├── xglm/
    │   │   ├── __init__.py
    │   │   ├── configuration_xglm.py
    │   │   ├── convert_xglm_original_ckpt_to_trfms.py
    │   │   ├── modeling_flax_xglm.py
    │   │   ├── modeling_tf_xglm.py
    │   │   ├── modeling_xglm.py
    │   │   ├── tokenization_xglm.py
    │   │   └── tokenization_xglm_fast.py
    │   ├── xlm/
    │   │   ├── __init__.py
    │   │   ├── configuration_xlm.py
    │   │   ├── convert_xlm_original_pytorch_checkpoint_to_pytorch.py
    │   │   ├── modeling_tf_xlm.py
    │   │   ├── modeling_xlm.py
    │   │   └── tokenization_xlm.py
    │   ├── xlm_prophetnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_xlm_prophetnet.py
    │   │   ├── modeling_xlm_prophetnet.py
    │   │   └── tokenization_xlm_prophetnet.py
    │   ├── xlm_roberta/
    │   │   ├── __init__.py
    │   │   ├── configuration_xlm_roberta.py
    │   │   ├── modeling_flax_xlm_roberta.py
    │   │   ├── modeling_tf_xlm_roberta.py
    │   │   ├── modeling_xlm_roberta.py
    │   │   ├── tokenization_xlm_roberta.py
    │   │   └── tokenization_xlm_roberta_fast.py
    │   ├── xlm_roberta_xl/
    │   │   ├── __init__.py
    │   │   ├── configuration_xlm_roberta_xl.py
    │   │   ├── convert_xlm_roberta_xl_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_xlm_roberta_xl.py
    │   ├── xlnet/
    │   │   ├── __init__.py
    │   │   ├── configuration_xlnet.py
    │   │   ├── convert_xlnet_original_tf_checkpoint_to_pytorch.py
    │   │   ├── modeling_tf_xlnet.py
    │   │   ├── modeling_xlnet.py
    │   │   ├── tokenization_xlnet.py
    │   │   └── tokenization_xlnet_fast.py
    │   ├── xmod/
    │   │   ├── __init__.py
    │   │   ├── configuration_xmod.py
    │   │   ├── convert_xmod_original_pytorch_checkpoint_to_pytorch.py
    │   │   └── modeling_xmod.py
    │   ├── yolos/
    │   │   ├── __init__.py
    │   │   ├── configuration_yolos.py
    │   │   ├── convert_yolos_to_pytorch.py
    │   │   ├── feature_extraction_yolos.py
    │   │   ├── image_processing_yolos.py
    │   │   └── modeling_yolos.py
    │   └── yoso/
    │       ├── __init__.py
    │       ├── configuration_yoso.py
    │       ├── convert_yoso_pytorch_to_pytorch.py
    │       └── modeling_yoso.py
    ├── onnx/
    │   ├── __init__.py
    │   ├── __main__.py
    │   ├── config.py
    │   ├── convert.py
    │   ├── features.py
    │   └── utils.py
    ├── optimization.py
    ├── optimization_tf.py
    ├── pipelines/
    │   ├── __init__.py
    │   ├── audio_classification.py
    │   ├── audio_utils.py
    │   ├── automatic_speech_recognition.py
    │   ├── base.py
    │   ├── conversational.py
    │   ├── depth_estimation.py
    │   ├── document_question_answering.py
    │   ├── feature_extraction.py
    │   ├── fill_mask.py
    │   ├── image_classification.py
    │   ├── image_segmentation.py
    │   ├── image_to_text.py
    │   ├── mask_generation.py
    │   ├── object_detection.py
    │   ├── pt_utils.py
    │   ├── question_answering.py
    │   ├── table_question_answering.py
    │   ├── text2text_generation.py
    │   ├── text_classification.py
    │   ├── text_generation.py
    │   ├── token_classification.py
    │   ├── video_classification.py
    │   ├── visual_question_answering.py
    │   ├── zero_shot_audio_classification.py
    │   ├── zero_shot_classification.py
    │   ├── zero_shot_image_classification.py
    │   └── zero_shot_object_detection.py
    ├── processing_utils.py
    ├── pytorch_utils.py
    ├── sagemaker/
    │   ├── __init__.py
    │   ├── trainer_sm.py
    │   └── training_args_sm.py
    ├── testing_utils.py
    ├── tf_utils.py
    ├── time_series_utils.py
    ├── tokenization_utils.py
    ├── tokenization_utils_base.py
    ├── tokenization_utils_fast.py
    ├── tools/
    │   ├── __init__.py
    │   ├── agents.py
    │   ├── base.py
    │   ├── document_question_answering.py
    │   ├── evaluate_agent.py
    │   ├── image_captioning.py
    │   ├── image_question_answering.py
    │   ├── image_segmentation.py
    │   ├── prompts.py
    │   ├── python_interpreter.py
    │   ├── speech_to_text.py
    │   ├── text_classification.py
    │   ├── text_question_answering.py
    │   ├── text_summarization.py
    │   ├── text_to_speech.py
    │   └── translation.py
    ├── trainer.py
    ├── trainer_callback.py
    ├── trainer_pt_utils.py
    ├── trainer_seq2seq.py
    ├── trainer_tf.py
    ├── trainer_utils.py
    ├── training_args.py
    ├── training_args_seq2seq.py
    ├── training_args_tf.py
    └── utils/
        ├── __init__.py
        ├── backbone_utils.py
        ├── bitsandbytes.py
        ├── constants.py
        ├── doc.py
        ├── dummy_detectron2_objects.py
        ├── dummy_flax_objects.py
        ├── dummy_keras_nlp_objects.py
        ├── dummy_pt_objects.py
        ├── dummy_sentencepiece_and_tokenizers_objects.py
        ├── dummy_sentencepiece_objects.py
        ├── dummy_speech_objects.py
        ├── dummy_tensorflow_text_objects.py
        ├── dummy_tf_objects.py
        ├── dummy_tokenizers_objects.py
        ├── dummy_vision_objects.py
        ├── fx.py
        ├── generic.py
        ├── hp_naming.py
        ├── hub.py
        ├── import_utils.py
        ├── logging.py
        ├── model_parallel_utils.py
        ├── notebook.py
        ├── quantization_config.py
        ├── sentencepiece_model_pb2.py
        └── versions.py