gitextract_g7qpcjx_/ ├── LICENSE.txt ├── MANIFEST.in ├── README.md ├── app/ │ ├── __init__.py │ ├── calculate_coco_features.py │ ├── caption.py │ ├── classification.py │ ├── dataset_browser.py │ ├── image_text_match.py │ ├── main.py │ ├── multimodal_search.py │ ├── multipage.py │ ├── text_localization.py │ ├── utils.py │ └── vqa.py ├── app.py ├── docs/ │ ├── Makefile │ ├── benchmark.rst │ ├── build_docs.sh │ ├── conf.py │ ├── getting_started.rst │ ├── index.rst │ ├── intro.rst │ ├── make.bat │ ├── requirements.txt │ ├── tutorial.configs.rst │ ├── tutorial.datasets.rst │ ├── tutorial.evaluation.rst │ ├── tutorial.models.rst │ ├── tutorial.processors.rst │ ├── tutorial.rst │ ├── tutorial.tasks.rst │ └── tutorial.training-example.rst ├── evaluate.py ├── lavis/ │ ├── __init__.py │ ├── common/ │ │ ├── config.py │ │ ├── dist_utils.py │ │ ├── gradcam.py │ │ ├── logger.py │ │ ├── optims.py │ │ ├── registry.py │ │ ├── utils.py │ │ └── vqa_tools/ │ │ ├── __init__.py │ │ ├── vqa.py │ │ └── vqa_eval.py │ ├── configs/ │ │ ├── datasets/ │ │ │ ├── aokvqa/ │ │ │ │ └── defaults.yaml │ │ │ ├── avsd/ │ │ │ │ └── defaults_dial.yaml │ │ │ ├── coco/ │ │ │ │ ├── defaults_cap.yaml │ │ │ │ ├── defaults_ret.yaml │ │ │ │ ├── defaults_vqa.yaml │ │ │ │ └── eval_vqa.yaml │ │ │ ├── conceptual_caption/ │ │ │ │ ├── defaults_12m.yaml │ │ │ │ └── defaults_3m.yaml │ │ │ ├── didemo/ │ │ │ │ └── defaults_ret.yaml │ │ │ ├── flickr30k/ │ │ │ │ └── defaults.yaml │ │ │ ├── gqa/ │ │ │ │ ├── balanced_testdev.yaml │ │ │ │ ├── balanced_val.yaml │ │ │ │ └── defaults.yaml │ │ │ ├── how2qa/ │ │ │ │ └── defaults_qa.yaml │ │ │ ├── imagenet/ │ │ │ │ └── defaults.yaml │ │ │ ├── laion/ │ │ │ │ └── defaults_2B_multi.yaml │ │ │ ├── msrvtt/ │ │ │ │ ├── defaults_cap.yaml │ │ │ │ ├── defaults_qa.yaml │ │ │ │ └── defaults_ret.yaml │ │ │ ├── msrvttmc/ │ │ │ │ └── defaults_qa.yaml │ │ │ ├── msvd/ │ │ │ │ ├── defaults_cap.yaml │ │ │ │ └── defaults_qa.yaml │ │ │ ├── nextqa/ │ │ │ │ └── defaults_qa.yaml │ │ │ ├── nlvr/ │ │ │ │ └── defaults.yaml │ │ │ ├── nocaps/ │ │ │ │ └── defaults.yaml │ │ │ ├── okvqa/ │ │ │ │ └── defaults.yaml │ │ │ ├── qvh/ │ │ │ │ └── defaults.yaml │ │ │ ├── sbu_caption/ │ │ │ │ └── defaults.yaml │ │ │ ├── snli_ve/ │ │ │ │ └── defaults.yaml │ │ │ ├── star/ │ │ │ │ └── defaults_qa.yaml │ │ │ ├── tvqa/ │ │ │ │ └── defaults_qa.yaml │ │ │ ├── vatex/ │ │ │ │ └── defaults_cap.yaml │ │ │ ├── vg/ │ │ │ │ ├── defaults_caption.yaml │ │ │ │ └── defaults_vqa.yaml │ │ │ └── vlep/ │ │ │ └── defaults_qa.yaml │ │ ├── default.yaml │ │ └── models/ │ │ ├── albef_classification_ve.yaml │ │ ├── albef_feature_extractor.yaml │ │ ├── albef_nlvr.yaml │ │ ├── albef_pretrain_base.yaml │ │ ├── albef_retrieval_coco.yaml │ │ ├── albef_retrieval_flickr.yaml │ │ ├── albef_vqav2.yaml │ │ ├── alpro_qa_msrvtt.yaml │ │ ├── alpro_qa_msvd.yaml │ │ ├── alpro_retrieval_didemo.yaml │ │ ├── alpro_retrieval_msrvtt.yaml │ │ ├── bert_config.json │ │ ├── bert_config_alpro.json │ │ ├── blip2/ │ │ │ ├── blip2_caption_flant5xl.yaml │ │ │ ├── blip2_caption_opt2.7b.yaml │ │ │ ├── blip2_caption_opt6.7b.yaml │ │ │ ├── blip2_coco.yaml │ │ │ ├── blip2_pretrain.yaml │ │ │ ├── blip2_pretrain_flant5xl.yaml │ │ │ ├── blip2_pretrain_flant5xxl.yaml │ │ │ ├── blip2_pretrain_opt2.7b.yaml │ │ │ └── blip2_pretrain_opt6.7b.yaml │ │ ├── blip_caption_base_coco.yaml │ │ ├── blip_caption_large_coco.yaml │ │ ├── blip_classification_base.yaml │ │ ├── blip_feature_extractor_base.yaml │ │ ├── blip_itm_base.yaml │ │ ├── blip_itm_large.yaml │ │ ├── blip_nlvr.yaml │ │ ├── blip_pretrain_base.yaml │ │ ├── blip_pretrain_large.yaml │ │ ├── blip_retrieval_coco.yaml │ │ ├── blip_retrieval_flickr.yaml │ │ ├── blip_vqa_aokvqa.yaml │ │ ├── blip_vqa_okvqa.yaml │ │ ├── blip_vqav2.yaml │ │ ├── clip/ │ │ │ ├── RN101-quickgelu.json │ │ │ ├── RN101.json │ │ │ ├── RN50-quickgelu.json │ │ │ ├── RN50.json │ │ │ ├── RN50x16.json │ │ │ ├── RN50x4.json │ │ │ ├── ViT-B-16-plus-240.json │ │ │ ├── ViT-B-16-plus.json │ │ │ ├── ViT-B-16.json │ │ │ ├── ViT-B-32-plus-256.json │ │ │ ├── ViT-B-32-quickgelu.json │ │ │ ├── ViT-B-32.json │ │ │ ├── ViT-H-14.json │ │ │ ├── ViT-H-16.json │ │ │ ├── ViT-L-14-280.json │ │ │ ├── ViT-L-14-336.json │ │ │ ├── ViT-L-14.json │ │ │ ├── ViT-L-16-320.json │ │ │ ├── ViT-L-16.json │ │ │ ├── ViT-g-14.json │ │ │ ├── timm-efficientnetv2_rw_s.json │ │ │ ├── timm-resnet50d.json │ │ │ ├── timm-resnetaa50d.json │ │ │ ├── timm-resnetblur50.json │ │ │ ├── timm-swin_base_patch4_window7_224.json │ │ │ ├── timm-vit_base_patch16_224.json │ │ │ ├── timm-vit_base_patch32_224.json │ │ │ └── timm-vit_small_patch16_224.json │ │ ├── clip_resnet50.yaml │ │ ├── clip_vit_base16.yaml │ │ ├── clip_vit_base32.yaml │ │ ├── clip_vit_large14.yaml │ │ ├── clip_vit_large14_336.yaml │ │ ├── gpt_dialogue_base.yaml │ │ ├── img2prompt-vqa/ │ │ │ └── img2prompt_vqa_base.yaml │ │ ├── med_config.json │ │ ├── med_config_albef.json │ │ ├── med_large_config.json │ │ ├── pnp-vqa/ │ │ │ ├── pnp_vqa_3b.yaml │ │ │ ├── pnp_vqa_base.yaml │ │ │ ├── pnp_vqa_large.yaml │ │ │ ├── unifiedqav2_3b_config.json │ │ │ ├── unifiedqav2_base_config.json │ │ │ └── unifiedqav2_large_config.json │ │ └── sevila.yaml │ ├── datasets/ │ │ ├── builders/ │ │ │ ├── __init__.py │ │ │ ├── base_dataset_builder.py │ │ │ ├── caption_builder.py │ │ │ ├── classification_builder.py │ │ │ ├── dialogue_builder.py │ │ │ ├── image_text_pair_builder.py │ │ │ ├── imagefolder_builder.py │ │ │ ├── retrieval_builder.py │ │ │ ├── video_qa_builder.py │ │ │ └── vqa_builder.py │ │ ├── data_utils.py │ │ ├── datasets/ │ │ │ ├── aok_vqa_datasets.py │ │ │ ├── avsd_dialogue_datasets.py │ │ │ ├── base_dataset.py │ │ │ ├── caption_datasets.py │ │ │ ├── coco_caption_datasets.py │ │ │ ├── coco_vqa_datasets.py │ │ │ ├── dataloader_utils.py │ │ │ ├── dialogue_datasets.py │ │ │ ├── gqa_datasets.py │ │ │ ├── image_text_pair_datasets.py │ │ │ ├── imagefolder_dataset.py │ │ │ ├── laion_dataset.py │ │ │ ├── mc_video_vqa_datasets.py │ │ │ ├── multimodal_classification_datasets.py │ │ │ ├── nlvr_datasets.py │ │ │ ├── retrieval_datasets.py │ │ │ ├── snli_ve_datasets.py │ │ │ ├── vg_vqa_datasets.py │ │ │ ├── video_caption_datasets.py │ │ │ ├── video_vqa_datasets.py │ │ │ └── vqa_datasets.py │ │ └── download_scripts/ │ │ ├── DownloadConceptualCaptions/ │ │ │ ├── LICENSE │ │ │ ├── README.md │ │ │ ├── create_annotation_12m.ipynb │ │ │ ├── create_annotation_3m.ipynb │ │ │ ├── download_data_cc12m.py │ │ │ └── download_data_cc3m.py │ │ ├── download_coco.py │ │ ├── download_didemo.py │ │ ├── download_flickr.py │ │ ├── download_gqa.py │ │ ├── download_msrvtt.py │ │ ├── download_msvd.py │ │ ├── download_nocaps.py │ │ ├── download_sbu.py │ │ └── download_vg.py │ ├── models/ │ │ ├── __init__.py │ │ ├── albef_models/ │ │ │ ├── __init__.py │ │ │ ├── albef_classification.py │ │ │ ├── albef_feature_extractor.py │ │ │ ├── albef_nlvr.py │ │ │ ├── albef_outputs.py │ │ │ ├── albef_pretrain.py │ │ │ ├── albef_retrieval.py │ │ │ └── albef_vqa.py │ │ ├── alpro_models/ │ │ │ ├── __init__.py │ │ │ ├── alpro_outputs.py │ │ │ ├── alpro_qa.py │ │ │ └── alpro_retrieval.py │ │ ├── base_model.py │ │ ├── blip2_models/ │ │ │ ├── Qformer.py │ │ │ ├── __init__.py │ │ │ ├── blip2.py │ │ │ ├── blip2_fmr.py │ │ │ ├── blip2_image_text_matching.py │ │ │ ├── blip2_opt.py │ │ │ ├── blip2_qformer.py │ │ │ ├── blip2_t5.py │ │ │ ├── modeling_opt.py │ │ │ └── modeling_t5.py │ │ ├── blip_models/ │ │ │ ├── __init__.py │ │ │ ├── blip.py │ │ │ ├── blip_caption.py │ │ │ ├── blip_classification.py │ │ │ ├── blip_feature_extractor.py │ │ │ ├── blip_image_text_matching.py │ │ │ ├── blip_nlvr.py │ │ │ ├── blip_outputs.py │ │ │ ├── blip_pretrain.py │ │ │ ├── blip_retrieval.py │ │ │ ├── blip_vqa.py │ │ │ └── nlvr_encoder.py │ │ ├── clip_models/ │ │ │ ├── __init__.py │ │ │ ├── clip_outputs.py │ │ │ ├── loss.py │ │ │ ├── model.py │ │ │ ├── pretrained.py │ │ │ ├── timm_model.py │ │ │ ├── tokenizer.py │ │ │ ├── transform.py │ │ │ └── utils.py │ │ ├── eva_vit.py │ │ ├── gpt_models/ │ │ │ └── gpt_dialogue.py │ │ ├── img2prompt_models/ │ │ │ ├── __init__.py │ │ │ └── img2prompt_vqa.py │ │ ├── med.py │ │ ├── pnp_vqa_models/ │ │ │ ├── __init__.py │ │ │ ├── pnp_unifiedqav2_fid.py │ │ │ └── pnp_vqa.py │ │ ├── sevila_models/ │ │ │ ├── __init__.py │ │ │ └── sevila.py │ │ ├── timesformer/ │ │ │ ├── __init__.py │ │ │ ├── conv2d_same.py │ │ │ ├── features.py │ │ │ ├── helpers.py │ │ │ ├── linear.py │ │ │ ├── vit.py │ │ │ └── vit_utils.py │ │ ├── topk.py │ │ └── vit.py │ ├── processors/ │ │ ├── __init__.py │ │ ├── alpro_processors.py │ │ ├── base_processor.py │ │ ├── blip_processors.py │ │ ├── clip_processors.py │ │ ├── functional_video.py │ │ ├── gpt_processors.py │ │ ├── randaugment.py │ │ └── transforms_video.py │ ├── projects/ │ │ ├── albef/ │ │ │ ├── eval/ │ │ │ │ ├── nlvr_eval.yaml │ │ │ │ ├── ret_coco_eval.yaml │ │ │ │ ├── ret_flickr30k_eval.yaml │ │ │ │ ├── snli_ve_eval.yaml │ │ │ │ ├── vqa_test.yaml │ │ │ │ └── vqa_val.yaml │ │ │ └── train/ │ │ │ ├── aokvqa_ft.yaml │ │ │ ├── nlvr_ft.yaml │ │ │ ├── okvqa_ft.yaml │ │ │ ├── pretrain.yaml │ │ │ ├── ret_coco_ft.yaml │ │ │ ├── ret_flickr30k_ft.yaml │ │ │ ├── snli_ve_ft.yaml │ │ │ └── vqa_ft.yaml │ │ ├── alpro/ │ │ │ ├── eval/ │ │ │ │ ├── didemo_ret_eval.yaml │ │ │ │ ├── msrvtt_qa_eval.yaml │ │ │ │ ├── msrvtt_ret_eval.yaml │ │ │ │ └── msvd_qa_eval.yaml │ │ │ └── train/ │ │ │ ├── didemo_ret_ft.yaml │ │ │ ├── msrvtt_qa_ft.yaml │ │ │ ├── msrvtt_retrieval_ft.yaml │ │ │ └── msvd_qa_ft.yaml │ │ ├── blip/ │ │ │ ├── coco_cap_ft_iter.yaml │ │ │ ├── eval/ │ │ │ │ ├── aokvqa_eval.yaml │ │ │ │ ├── caption_coco_eval.yaml │ │ │ │ ├── caption_coco_eval_large.yaml │ │ │ │ ├── nlvr_eval.yaml │ │ │ │ ├── nocaps_eval.yaml │ │ │ │ ├── okvqa_eval.yaml │ │ │ │ ├── ret_coco_eval.yaml │ │ │ │ ├── ret_flickr_eval.yaml │ │ │ │ └── vqav2_eval.yaml │ │ │ └── train/ │ │ │ ├── aokvqa_ft.yaml │ │ │ ├── caption_coco_ft.yaml │ │ │ ├── caption_coco_large_ft.yaml │ │ │ ├── nlvr_ft.yaml │ │ │ ├── okvqa_ft.yaml │ │ │ ├── pretrain_14m.yaml │ │ │ ├── retrieval_coco_ft.yaml │ │ │ ├── retrieval_flickr_ft.yaml │ │ │ └── vqav2_ft.yaml │ │ ├── blip2/ │ │ │ ├── eval/ │ │ │ │ ├── caption_coco_flant5xl_eval.yaml │ │ │ │ ├── caption_coco_opt2.7b_eval.yaml │ │ │ │ ├── caption_coco_opt6.7b_eval.yaml │ │ │ │ ├── gqa_zeroshot_flant5xl_eval.yaml │ │ │ │ ├── okvqa_zeroshot_flant5xl_eval.yaml │ │ │ │ ├── ret_coco_eval.yaml │ │ │ │ ├── ret_flickr_eval.yaml │ │ │ │ └── vqav2_zeroshot_flant5xl_eval.yaml │ │ │ └── train/ │ │ │ ├── caption_coco_ft.yaml │ │ │ ├── pretrain_stage1.yaml │ │ │ └── pretrain_stage2.yaml │ │ ├── clip/ │ │ │ ├── exp_coco_ret_eval.yaml │ │ │ ├── exp_flickr_ret_eval.yaml │ │ │ └── exp_imnet_zs_eval.yaml │ │ ├── gpt/ │ │ │ ├── eval/ │ │ │ │ └── dialogue_avsd_eval.yaml │ │ │ └── train/ │ │ │ └── dialogue_avsd_ft.yaml │ │ ├── pnp-vqa/ │ │ │ └── eval/ │ │ │ ├── gqa_eval.yaml │ │ │ ├── gqa_eval_3b.yaml │ │ │ ├── gqa_eval_large.yaml │ │ │ ├── okvqa_eval.yaml │ │ │ ├── okvqa_eval_3b.yaml │ │ │ ├── okvqa_eval_large.yaml │ │ │ ├── vqav2_eval.yaml │ │ │ ├── vqav2_eval_3b.yaml │ │ │ ├── vqav2_eval_large.yaml │ │ │ ├── vqav2_test_eval.yaml │ │ │ ├── vqav2_test_eval_3b.yaml │ │ │ └── vqav2_test_eval_large.yaml │ │ └── sevila/ │ │ ├── eval/ │ │ │ ├── how2qa_eval.yaml │ │ │ ├── nextqa_eval.yaml │ │ │ ├── qvh_eval.yaml │ │ │ ├── star_eval.yaml │ │ │ ├── tvqa_eval.yaml │ │ │ └── vlep_eval.yaml │ │ └── train/ │ │ ├── how2qa.yaml │ │ ├── nextqa.yaml │ │ ├── qvh.yaml │ │ ├── star.yaml │ │ ├── tvqa.yaml │ │ └── vlep.yaml │ ├── runners/ │ │ ├── __init__.py │ │ ├── runner_base.py │ │ └── runner_iter.py │ └── tasks/ │ ├── __init__.py │ ├── base_task.py │ ├── captioning.py │ ├── dialogue.py │ ├── image_text_pretrain.py │ ├── multimodal_classification.py │ ├── retrieval.py │ ├── vqa.py │ └── vqa_reading_comprehension.py ├── pyproject.toml ├── requirements.txt ├── run_scripts/ │ └── sevila/ │ ├── finetune/ │ │ └── nexqa_ft.sh │ ├── inference/ │ │ └── nexqa_infer.sh │ ├── pre-train/ │ │ └── pretrain_qvh.sh │ └── refinement/ │ └── nexqa_sr.sh ├── setup.py ├── sevila_checkpoints/ │ └── __init__.py ├── sevila_data/ │ ├── Data Preprocess.ipynb │ └── README.md └── train.py