gitextract_g7qpcjx_/

├── LICENSE.txt
├── MANIFEST.in
├── README.md
├── app/
│   ├── __init__.py
│   ├── calculate_coco_features.py
│   ├── caption.py
│   ├── classification.py
│   ├── dataset_browser.py
│   ├── image_text_match.py
│   ├── main.py
│   ├── multimodal_search.py
│   ├── multipage.py
│   ├── text_localization.py
│   ├── utils.py
│   └── vqa.py
├── app.py
├── docs/
│   ├── Makefile
│   ├── benchmark.rst
│   ├── build_docs.sh
│   ├── conf.py
│   ├── getting_started.rst
│   ├── index.rst
│   ├── intro.rst
│   ├── make.bat
│   ├── requirements.txt
│   ├── tutorial.configs.rst
│   ├── tutorial.datasets.rst
│   ├── tutorial.evaluation.rst
│   ├── tutorial.models.rst
│   ├── tutorial.processors.rst
│   ├── tutorial.rst
│   ├── tutorial.tasks.rst
│   └── tutorial.training-example.rst
├── evaluate.py
├── lavis/
│   ├── __init__.py
│   ├── common/
│   │   ├── config.py
│   │   ├── dist_utils.py
│   │   ├── gradcam.py
│   │   ├── logger.py
│   │   ├── optims.py
│   │   ├── registry.py
│   │   ├── utils.py
│   │   └── vqa_tools/
│   │       ├── __init__.py
│   │       ├── vqa.py
│   │       └── vqa_eval.py
│   ├── configs/
│   │   ├── datasets/
│   │   │   ├── aokvqa/
│   │   │   │   └── defaults.yaml
│   │   │   ├── avsd/
│   │   │   │   └── defaults_dial.yaml
│   │   │   ├── coco/
│   │   │   │   ├── defaults_cap.yaml
│   │   │   │   ├── defaults_ret.yaml
│   │   │   │   ├── defaults_vqa.yaml
│   │   │   │   └── eval_vqa.yaml
│   │   │   ├── conceptual_caption/
│   │   │   │   ├── defaults_12m.yaml
│   │   │   │   └── defaults_3m.yaml
│   │   │   ├── didemo/
│   │   │   │   └── defaults_ret.yaml
│   │   │   ├── flickr30k/
│   │   │   │   └── defaults.yaml
│   │   │   ├── gqa/
│   │   │   │   ├── balanced_testdev.yaml
│   │   │   │   ├── balanced_val.yaml
│   │   │   │   └── defaults.yaml
│   │   │   ├── how2qa/
│   │   │   │   └── defaults_qa.yaml
│   │   │   ├── imagenet/
│   │   │   │   └── defaults.yaml
│   │   │   ├── laion/
│   │   │   │   └── defaults_2B_multi.yaml
│   │   │   ├── msrvtt/
│   │   │   │   ├── defaults_cap.yaml
│   │   │   │   ├── defaults_qa.yaml
│   │   │   │   └── defaults_ret.yaml
│   │   │   ├── msrvttmc/
│   │   │   │   └── defaults_qa.yaml
│   │   │   ├── msvd/
│   │   │   │   ├── defaults_cap.yaml
│   │   │   │   └── defaults_qa.yaml
│   │   │   ├── nextqa/
│   │   │   │   └── defaults_qa.yaml
│   │   │   ├── nlvr/
│   │   │   │   └── defaults.yaml
│   │   │   ├── nocaps/
│   │   │   │   └── defaults.yaml
│   │   │   ├── okvqa/
│   │   │   │   └── defaults.yaml
│   │   │   ├── qvh/
│   │   │   │   └── defaults.yaml
│   │   │   ├── sbu_caption/
│   │   │   │   └── defaults.yaml
│   │   │   ├── snli_ve/
│   │   │   │   └── defaults.yaml
│   │   │   ├── star/
│   │   │   │   └── defaults_qa.yaml
│   │   │   ├── tvqa/
│   │   │   │   └── defaults_qa.yaml
│   │   │   ├── vatex/
│   │   │   │   └── defaults_cap.yaml
│   │   │   ├── vg/
│   │   │   │   ├── defaults_caption.yaml
│   │   │   │   └── defaults_vqa.yaml
│   │   │   └── vlep/
│   │   │       └── defaults_qa.yaml
│   │   ├── default.yaml
│   │   └── models/
│   │       ├── albef_classification_ve.yaml
│   │       ├── albef_feature_extractor.yaml
│   │       ├── albef_nlvr.yaml
│   │       ├── albef_pretrain_base.yaml
│   │       ├── albef_retrieval_coco.yaml
│   │       ├── albef_retrieval_flickr.yaml
│   │       ├── albef_vqav2.yaml
│   │       ├── alpro_qa_msrvtt.yaml
│   │       ├── alpro_qa_msvd.yaml
│   │       ├── alpro_retrieval_didemo.yaml
│   │       ├── alpro_retrieval_msrvtt.yaml
│   │       ├── bert_config.json
│   │       ├── bert_config_alpro.json
│   │       ├── blip2/
│   │       │   ├── blip2_caption_flant5xl.yaml
│   │       │   ├── blip2_caption_opt2.7b.yaml
│   │       │   ├── blip2_caption_opt6.7b.yaml
│   │       │   ├── blip2_coco.yaml
│   │       │   ├── blip2_pretrain.yaml
│   │       │   ├── blip2_pretrain_flant5xl.yaml
│   │       │   ├── blip2_pretrain_flant5xxl.yaml
│   │       │   ├── blip2_pretrain_opt2.7b.yaml
│   │       │   └── blip2_pretrain_opt6.7b.yaml
│   │       ├── blip_caption_base_coco.yaml
│   │       ├── blip_caption_large_coco.yaml
│   │       ├── blip_classification_base.yaml
│   │       ├── blip_feature_extractor_base.yaml
│   │       ├── blip_itm_base.yaml
│   │       ├── blip_itm_large.yaml
│   │       ├── blip_nlvr.yaml
│   │       ├── blip_pretrain_base.yaml
│   │       ├── blip_pretrain_large.yaml
│   │       ├── blip_retrieval_coco.yaml
│   │       ├── blip_retrieval_flickr.yaml
│   │       ├── blip_vqa_aokvqa.yaml
│   │       ├── blip_vqa_okvqa.yaml
│   │       ├── blip_vqav2.yaml
│   │       ├── clip/
│   │       │   ├── RN101-quickgelu.json
│   │       │   ├── RN101.json
│   │       │   ├── RN50-quickgelu.json
│   │       │   ├── RN50.json
│   │       │   ├── RN50x16.json
│   │       │   ├── RN50x4.json
│   │       │   ├── ViT-B-16-plus-240.json
│   │       │   ├── ViT-B-16-plus.json
│   │       │   ├── ViT-B-16.json
│   │       │   ├── ViT-B-32-plus-256.json
│   │       │   ├── ViT-B-32-quickgelu.json
│   │       │   ├── ViT-B-32.json
│   │       │   ├── ViT-H-14.json
│   │       │   ├── ViT-H-16.json
│   │       │   ├── ViT-L-14-280.json
│   │       │   ├── ViT-L-14-336.json
│   │       │   ├── ViT-L-14.json
│   │       │   ├── ViT-L-16-320.json
│   │       │   ├── ViT-L-16.json
│   │       │   ├── ViT-g-14.json
│   │       │   ├── timm-efficientnetv2_rw_s.json
│   │       │   ├── timm-resnet50d.json
│   │       │   ├── timm-resnetaa50d.json
│   │       │   ├── timm-resnetblur50.json
│   │       │   ├── timm-swin_base_patch4_window7_224.json
│   │       │   ├── timm-vit_base_patch16_224.json
│   │       │   ├── timm-vit_base_patch32_224.json
│   │       │   └── timm-vit_small_patch16_224.json
│   │       ├── clip_resnet50.yaml
│   │       ├── clip_vit_base16.yaml
│   │       ├── clip_vit_base32.yaml
│   │       ├── clip_vit_large14.yaml
│   │       ├── clip_vit_large14_336.yaml
│   │       ├── gpt_dialogue_base.yaml
│   │       ├── img2prompt-vqa/
│   │       │   └── img2prompt_vqa_base.yaml
│   │       ├── med_config.json
│   │       ├── med_config_albef.json
│   │       ├── med_large_config.json
│   │       ├── pnp-vqa/
│   │       │   ├── pnp_vqa_3b.yaml
│   │       │   ├── pnp_vqa_base.yaml
│   │       │   ├── pnp_vqa_large.yaml
│   │       │   ├── unifiedqav2_3b_config.json
│   │       │   ├── unifiedqav2_base_config.json
│   │       │   └── unifiedqav2_large_config.json
│   │       └── sevila.yaml
│   ├── datasets/
│   │   ├── builders/
│   │   │   ├── __init__.py
│   │   │   ├── base_dataset_builder.py
│   │   │   ├── caption_builder.py
│   │   │   ├── classification_builder.py
│   │   │   ├── dialogue_builder.py
│   │   │   ├── image_text_pair_builder.py
│   │   │   ├── imagefolder_builder.py
│   │   │   ├── retrieval_builder.py
│   │   │   ├── video_qa_builder.py
│   │   │   └── vqa_builder.py
│   │   ├── data_utils.py
│   │   ├── datasets/
│   │   │   ├── aok_vqa_datasets.py
│   │   │   ├── avsd_dialogue_datasets.py
│   │   │   ├── base_dataset.py
│   │   │   ├── caption_datasets.py
│   │   │   ├── coco_caption_datasets.py
│   │   │   ├── coco_vqa_datasets.py
│   │   │   ├── dataloader_utils.py
│   │   │   ├── dialogue_datasets.py
│   │   │   ├── gqa_datasets.py
│   │   │   ├── image_text_pair_datasets.py
│   │   │   ├── imagefolder_dataset.py
│   │   │   ├── laion_dataset.py
│   │   │   ├── mc_video_vqa_datasets.py
│   │   │   ├── multimodal_classification_datasets.py
│   │   │   ├── nlvr_datasets.py
│   │   │   ├── retrieval_datasets.py
│   │   │   ├── snli_ve_datasets.py
│   │   │   ├── vg_vqa_datasets.py
│   │   │   ├── video_caption_datasets.py
│   │   │   ├── video_vqa_datasets.py
│   │   │   └── vqa_datasets.py
│   │   └── download_scripts/
│   │       ├── DownloadConceptualCaptions/
│   │       │   ├── LICENSE
│   │       │   ├── README.md
│   │       │   ├── create_annotation_12m.ipynb
│   │       │   ├── create_annotation_3m.ipynb
│   │       │   ├── download_data_cc12m.py
│   │       │   └── download_data_cc3m.py
│   │       ├── download_coco.py
│   │       ├── download_didemo.py
│   │       ├── download_flickr.py
│   │       ├── download_gqa.py
│   │       ├── download_msrvtt.py
│   │       ├── download_msvd.py
│   │       ├── download_nocaps.py
│   │       ├── download_sbu.py
│   │       └── download_vg.py
│   ├── models/
│   │   ├── __init__.py
│   │   ├── albef_models/
│   │   │   ├── __init__.py
│   │   │   ├── albef_classification.py
│   │   │   ├── albef_feature_extractor.py
│   │   │   ├── albef_nlvr.py
│   │   │   ├── albef_outputs.py
│   │   │   ├── albef_pretrain.py
│   │   │   ├── albef_retrieval.py
│   │   │   └── albef_vqa.py
│   │   ├── alpro_models/
│   │   │   ├── __init__.py
│   │   │   ├── alpro_outputs.py
│   │   │   ├── alpro_qa.py
│   │   │   └── alpro_retrieval.py
│   │   ├── base_model.py
│   │   ├── blip2_models/
│   │   │   ├── Qformer.py
│   │   │   ├── __init__.py
│   │   │   ├── blip2.py
│   │   │   ├── blip2_fmr.py
│   │   │   ├── blip2_image_text_matching.py
│   │   │   ├── blip2_opt.py
│   │   │   ├── blip2_qformer.py
│   │   │   ├── blip2_t5.py
│   │   │   ├── modeling_opt.py
│   │   │   └── modeling_t5.py
│   │   ├── blip_models/
│   │   │   ├── __init__.py
│   │   │   ├── blip.py
│   │   │   ├── blip_caption.py
│   │   │   ├── blip_classification.py
│   │   │   ├── blip_feature_extractor.py
│   │   │   ├── blip_image_text_matching.py
│   │   │   ├── blip_nlvr.py
│   │   │   ├── blip_outputs.py
│   │   │   ├── blip_pretrain.py
│   │   │   ├── blip_retrieval.py
│   │   │   ├── blip_vqa.py
│   │   │   └── nlvr_encoder.py
│   │   ├── clip_models/
│   │   │   ├── __init__.py
│   │   │   ├── clip_outputs.py
│   │   │   ├── loss.py
│   │   │   ├── model.py
│   │   │   ├── pretrained.py
│   │   │   ├── timm_model.py
│   │   │   ├── tokenizer.py
│   │   │   ├── transform.py
│   │   │   └── utils.py
│   │   ├── eva_vit.py
│   │   ├── gpt_models/
│   │   │   └── gpt_dialogue.py
│   │   ├── img2prompt_models/
│   │   │   ├── __init__.py
│   │   │   └── img2prompt_vqa.py
│   │   ├── med.py
│   │   ├── pnp_vqa_models/
│   │   │   ├── __init__.py
│   │   │   ├── pnp_unifiedqav2_fid.py
│   │   │   └── pnp_vqa.py
│   │   ├── sevila_models/
│   │   │   ├── __init__.py
│   │   │   └── sevila.py
│   │   ├── timesformer/
│   │   │   ├── __init__.py
│   │   │   ├── conv2d_same.py
│   │   │   ├── features.py
│   │   │   ├── helpers.py
│   │   │   ├── linear.py
│   │   │   ├── vit.py
│   │   │   └── vit_utils.py
│   │   ├── topk.py
│   │   └── vit.py
│   ├── processors/
│   │   ├── __init__.py
│   │   ├── alpro_processors.py
│   │   ├── base_processor.py
│   │   ├── blip_processors.py
│   │   ├── clip_processors.py
│   │   ├── functional_video.py
│   │   ├── gpt_processors.py
│   │   ├── randaugment.py
│   │   └── transforms_video.py
│   ├── projects/
│   │   ├── albef/
│   │   │   ├── eval/
│   │   │   │   ├── nlvr_eval.yaml
│   │   │   │   ├── ret_coco_eval.yaml
│   │   │   │   ├── ret_flickr30k_eval.yaml
│   │   │   │   ├── snli_ve_eval.yaml
│   │   │   │   ├── vqa_test.yaml
│   │   │   │   └── vqa_val.yaml
│   │   │   └── train/
│   │   │       ├── aokvqa_ft.yaml
│   │   │       ├── nlvr_ft.yaml
│   │   │       ├── okvqa_ft.yaml
│   │   │       ├── pretrain.yaml
│   │   │       ├── ret_coco_ft.yaml
│   │   │       ├── ret_flickr30k_ft.yaml
│   │   │       ├── snli_ve_ft.yaml
│   │   │       └── vqa_ft.yaml
│   │   ├── alpro/
│   │   │   ├── eval/
│   │   │   │   ├── didemo_ret_eval.yaml
│   │   │   │   ├── msrvtt_qa_eval.yaml
│   │   │   │   ├── msrvtt_ret_eval.yaml
│   │   │   │   └── msvd_qa_eval.yaml
│   │   │   └── train/
│   │   │       ├── didemo_ret_ft.yaml
│   │   │       ├── msrvtt_qa_ft.yaml
│   │   │       ├── msrvtt_retrieval_ft.yaml
│   │   │       └── msvd_qa_ft.yaml
│   │   ├── blip/
│   │   │   ├── coco_cap_ft_iter.yaml
│   │   │   ├── eval/
│   │   │   │   ├── aokvqa_eval.yaml
│   │   │   │   ├── caption_coco_eval.yaml
│   │   │   │   ├── caption_coco_eval_large.yaml
│   │   │   │   ├── nlvr_eval.yaml
│   │   │   │   ├── nocaps_eval.yaml
│   │   │   │   ├── okvqa_eval.yaml
│   │   │   │   ├── ret_coco_eval.yaml
│   │   │   │   ├── ret_flickr_eval.yaml
│   │   │   │   └── vqav2_eval.yaml
│   │   │   └── train/
│   │   │       ├── aokvqa_ft.yaml
│   │   │       ├── caption_coco_ft.yaml
│   │   │       ├── caption_coco_large_ft.yaml
│   │   │       ├── nlvr_ft.yaml
│   │   │       ├── okvqa_ft.yaml
│   │   │       ├── pretrain_14m.yaml
│   │   │       ├── retrieval_coco_ft.yaml
│   │   │       ├── retrieval_flickr_ft.yaml
│   │   │       └── vqav2_ft.yaml
│   │   ├── blip2/
│   │   │   ├── eval/
│   │   │   │   ├── caption_coco_flant5xl_eval.yaml
│   │   │   │   ├── caption_coco_opt2.7b_eval.yaml
│   │   │   │   ├── caption_coco_opt6.7b_eval.yaml
│   │   │   │   ├── gqa_zeroshot_flant5xl_eval.yaml
│   │   │   │   ├── okvqa_zeroshot_flant5xl_eval.yaml
│   │   │   │   ├── ret_coco_eval.yaml
│   │   │   │   ├── ret_flickr_eval.yaml
│   │   │   │   └── vqav2_zeroshot_flant5xl_eval.yaml
│   │   │   └── train/
│   │   │       ├── caption_coco_ft.yaml
│   │   │       ├── pretrain_stage1.yaml
│   │   │       └── pretrain_stage2.yaml
│   │   ├── clip/
│   │   │   ├── exp_coco_ret_eval.yaml
│   │   │   ├── exp_flickr_ret_eval.yaml
│   │   │   └── exp_imnet_zs_eval.yaml
│   │   ├── gpt/
│   │   │   ├── eval/
│   │   │   │   └── dialogue_avsd_eval.yaml
│   │   │   └── train/
│   │   │       └── dialogue_avsd_ft.yaml
│   │   ├── pnp-vqa/
│   │   │   └── eval/
│   │   │       ├── gqa_eval.yaml
│   │   │       ├── gqa_eval_3b.yaml
│   │   │       ├── gqa_eval_large.yaml
│   │   │       ├── okvqa_eval.yaml
│   │   │       ├── okvqa_eval_3b.yaml
│   │   │       ├── okvqa_eval_large.yaml
│   │   │       ├── vqav2_eval.yaml
│   │   │       ├── vqav2_eval_3b.yaml
│   │   │       ├── vqav2_eval_large.yaml
│   │   │       ├── vqav2_test_eval.yaml
│   │   │       ├── vqav2_test_eval_3b.yaml
│   │   │       └── vqav2_test_eval_large.yaml
│   │   └── sevila/
│   │       ├── eval/
│   │       │   ├── how2qa_eval.yaml
│   │       │   ├── nextqa_eval.yaml
│   │       │   ├── qvh_eval.yaml
│   │       │   ├── star_eval.yaml
│   │       │   ├── tvqa_eval.yaml
│   │       │   └── vlep_eval.yaml
│   │       └── train/
│   │           ├── how2qa.yaml
│   │           ├── nextqa.yaml
│   │           ├── qvh.yaml
│   │           ├── star.yaml
│   │           ├── tvqa.yaml
│   │           └── vlep.yaml
│   ├── runners/
│   │   ├── __init__.py
│   │   ├── runner_base.py
│   │   └── runner_iter.py
│   └── tasks/
│       ├── __init__.py
│       ├── base_task.py
│       ├── captioning.py
│       ├── dialogue.py
│       ├── image_text_pretrain.py
│       ├── multimodal_classification.py
│       ├── retrieval.py
│       ├── vqa.py
│       └── vqa_reading_comprehension.py
├── pyproject.toml
├── requirements.txt
├── run_scripts/
│   └── sevila/
│       ├── finetune/
│       │   └── nexqa_ft.sh
│       ├── inference/
│       │   └── nexqa_infer.sh
│       ├── pre-train/
│       │   └── pretrain_qvh.sh
│       └── refinement/
│           └── nexqa_sr.sh
├── setup.py
├── sevila_checkpoints/
│   └── __init__.py
├── sevila_data/
│   ├── Data Preprocess.ipynb
│   └── README.md
└── train.py