gitextract_bx6vsnx8/ ├── .github/ │ └── ISSUE_TEMPLATE/ │ ├── bug_report.md │ └── feature_request.md ├── .gitignore ├── CODE_OF_CONDUCT.md ├── LICENSE.md ├── LICENSE_Lavis.md ├── MiniGPT4_Train.md ├── MiniGPTv2_Train.md ├── README.md ├── SECURITY.md ├── dataset/ │ ├── README_1_STAGE.md │ ├── README_2_STAGE.md │ ├── README_MINIGPTv2_FINETUNE.md │ ├── convert_cc_sbu.py │ └── convert_laion.py ├── demo.py ├── demo_v2.py ├── environment.yml ├── eval_configs/ │ ├── minigpt4_eval.yaml │ ├── minigpt4_llama2_eval.yaml │ ├── minigptv2_benchmark_evaluation.yaml │ └── minigptv2_eval.yaml ├── eval_scripts/ │ ├── EVAL_README.md │ ├── eval_ref.py │ └── eval_vqa.py ├── minigpt4/ │ ├── __init__.py │ ├── common/ │ │ ├── __init__.py │ │ ├── config.py │ │ ├── dist_utils.py │ │ ├── eval_utils.py │ │ ├── gradcam.py │ │ ├── logger.py │ │ ├── optims.py │ │ ├── registry.py │ │ ├── utils.py │ │ └── vqa_tools/ │ │ ├── VQA/ │ │ │ ├── PythonEvaluationTools/ │ │ │ │ ├── vqaEvalDemo.py │ │ │ │ └── vqaEvaluation/ │ │ │ │ ├── __init__.py │ │ │ │ └── vqaEval.py │ │ │ ├── PythonHelperTools/ │ │ │ │ ├── vqaDemo.py │ │ │ │ └── vqaTools/ │ │ │ │ ├── __init__.py │ │ │ │ └── vqa.py │ │ │ ├── QuestionTypes/ │ │ │ │ ├── abstract_v002_question_types.txt │ │ │ │ └── mscoco_question_types.txt │ │ │ ├── README.md │ │ │ └── license.txt │ │ ├── __init__.py │ │ ├── vqa.py │ │ └── vqa_eval.py │ ├── configs/ │ │ ├── datasets/ │ │ │ ├── aokvqa/ │ │ │ │ └── defaults.yaml │ │ │ ├── cc_sbu/ │ │ │ │ ├── align.yaml │ │ │ │ └── defaults.yaml │ │ │ ├── coco/ │ │ │ │ ├── caption.yaml │ │ │ │ └── defaults_vqa.yaml │ │ │ ├── coco_bbox/ │ │ │ │ ├── invrefcoco.yaml │ │ │ │ ├── invrefcocog.yaml │ │ │ │ ├── invrefcocop.yaml │ │ │ │ ├── refcoco.yaml │ │ │ │ ├── refcocog.yaml │ │ │ │ └── refcocop.yaml │ │ │ ├── flickr/ │ │ │ │ ├── caption_to_phrase.yaml │ │ │ │ ├── default.yaml │ │ │ │ └── object_to_phrase.yaml │ │ │ ├── gqa/ │ │ │ │ └── balanced_val.yaml │ │ │ ├── laion/ │ │ │ │ └── defaults.yaml │ │ │ ├── llava/ │ │ │ │ ├── conversation.yaml │ │ │ │ ├── detail.yaml │ │ │ │ └── reason.yaml │ │ │ ├── multitask_conversation/ │ │ │ │ └── default.yaml │ │ │ ├── nlp/ │ │ │ │ └── unnatural_instruction.yaml │ │ │ ├── ocrvqa/ │ │ │ │ └── ocrvqa.yaml │ │ │ ├── okvqa/ │ │ │ │ └── defaults.yaml │ │ │ ├── textcaps/ │ │ │ │ └── caption.yaml │ │ │ └── vg/ │ │ │ └── ref.yaml │ │ ├── default.yaml │ │ └── models/ │ │ ├── minigpt4_llama2.yaml │ │ ├── minigpt4_vicuna0.yaml │ │ └── minigpt_v2.yaml │ ├── conversation/ │ │ ├── __init__.py │ │ └── conversation.py │ ├── datasets/ │ │ ├── __init__.py │ │ ├── builders/ │ │ │ ├── __init__.py │ │ │ ├── base_dataset_builder.py │ │ │ └── image_text_pair_builder.py │ │ ├── data_utils.py │ │ └── datasets/ │ │ ├── __init__.py │ │ ├── aok_vqa_datasets.py │ │ ├── base_dataset.py │ │ ├── caption_datasets.py │ │ ├── cc_sbu_dataset.py │ │ ├── coco_caption.py │ │ ├── coco_dataset.py │ │ ├── coco_vqa_datasets.py │ │ ├── dataloader_utils.py │ │ ├── flickr.py │ │ ├── gqa_datasets.py │ │ ├── laion_dataset.py │ │ ├── llava_dataset.py │ │ ├── multitask_conversation.py │ │ ├── ocrvqa_dataset.py │ │ ├── text_caps.py │ │ ├── unnatural_instruction.py │ │ ├── vg_dataset.py │ │ └── vqa_datasets.py │ ├── models/ │ │ ├── Qformer.py │ │ ├── __init__.py │ │ ├── base_model.py │ │ ├── eva_vit.py │ │ ├── minigpt4.py │ │ ├── minigpt_base.py │ │ ├── minigpt_v2.py │ │ └── modeling_llama.py │ ├── processors/ │ │ ├── __init__.py │ │ ├── base_processor.py │ │ ├── blip_processors.py │ │ └── randaugment.py │ ├── runners/ │ │ ├── __init__.py │ │ └── runner_base.py │ └── tasks/ │ ├── __init__.py │ ├── base_task.py │ └── image_text_pretrain.py ├── train.py └── train_configs/ ├── minigpt4_llama2_stage1_pretrain.yaml ├── minigpt4_llama2_stage2_finetune.yaml ├── minigpt4_stage1_pretrain.yaml ├── minigpt4_stage2_finetune.yaml └── minigptv2_finetune.yaml