gitextract_uqnovqeg/ ├── .gitignore ├── CODE_OF_CONDUCT.md ├── CONTRIBUTING.md ├── EVAL.md ├── LICENSE ├── README.md ├── experiments/ │ ├── ferret_13b_train.sh │ └── ferret_7b_train.sh ├── ferret/ │ ├── __init__.py │ ├── constants.py │ ├── conversation.py │ ├── eval/ │ │ ├── eval_flickr_entities.py │ │ ├── eval_gpt_review_3newclass.py │ │ ├── eval_lvis.py │ │ ├── eval_pope.py │ │ ├── eval_refexp.py │ │ ├── ferret_gpt4_data/ │ │ │ ├── ground_conv/ │ │ │ │ ├── answer.jsonl │ │ │ │ ├── context.jsonl │ │ │ │ └── question.jsonl │ │ │ ├── refer_caption/ │ │ │ │ ├── answer.jsonl │ │ │ │ ├── context.jsonl │ │ │ │ └── question.jsonl │ │ │ ├── refer_reason/ │ │ │ │ ├── answer.jsonl │ │ │ │ ├── context.jsonl │ │ │ │ └── question.jsonl │ │ │ └── rule.json │ │ ├── gpt4_eval_script.sh │ │ ├── model_flickr.py │ │ ├── model_gpt4eval_3newclass.py │ │ ├── model_lvis.py │ │ ├── model_point_cls_single_image.py │ │ ├── model_pope.py │ │ ├── model_refcoco.py │ │ └── summarize_gpt_review.py │ ├── mm_utils.py │ ├── model/ │ │ ├── __init__.py │ │ ├── apply_delta.py │ │ ├── builder.py │ │ ├── consolidate.py │ │ ├── ferret_arch.py │ │ ├── language_model/ │ │ │ └── ferret_llama.py │ │ ├── make_delta.py │ │ ├── multimodal_encoder/ │ │ │ ├── builder.py │ │ │ └── clip_encoder.py │ │ └── utils.py │ ├── serve/ │ │ ├── __init__.py │ │ ├── controller.py │ │ ├── dejavu/ │ │ │ └── .uuid │ │ ├── gradio_css.py │ │ ├── gradio_web_server.py │ │ ├── model_worker.py │ │ └── register_worker.py │ ├── train/ │ │ ├── ferret_trainer.py │ │ ├── llama_flash_attn_monkey_patch.py │ │ ├── train.py │ │ └── train_mem.py │ └── utils.py ├── ferretui/ │ ├── README.md │ ├── ferretui/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── conversation.py │ │ ├── eval/ │ │ │ ├── model_UI.py │ │ │ ├── table/ │ │ │ │ ├── answer/ │ │ │ │ │ ├── answer_alpaca-13b.jsonl │ │ │ │ │ ├── answer_bard.jsonl │ │ │ │ │ ├── answer_gpt35.jsonl │ │ │ │ │ ├── answer_llama-13b.jsonl │ │ │ │ │ └── answer_vicuna-13b.jsonl │ │ │ │ ├── caps_boxes_coco2014_val_80.jsonl │ │ │ │ ├── model.jsonl │ │ │ │ ├── prompt.jsonl │ │ │ │ ├── question.jsonl │ │ │ │ ├── results/ │ │ │ │ │ ├── test_sqa_llava_13b_v0.json │ │ │ │ │ └── test_sqa_llava_lcs_558k_sqa_12e_vicuna_v1_3_13b.json │ │ │ │ ├── review/ │ │ │ │ │ ├── review_alpaca-13b_vicuna-13b.jsonl │ │ │ │ │ ├── review_bard_vicuna-13b.jsonl │ │ │ │ │ ├── review_gpt35_vicuna-13b.jsonl │ │ │ │ │ └── review_llama-13b_vicuna-13b.jsonl │ │ │ │ ├── reviewer.jsonl │ │ │ │ └── rule.json │ │ │ └── webpage/ │ │ │ ├── index.html │ │ │ ├── script.js │ │ │ └── styles.css │ │ ├── mm_utils.py │ │ ├── model/ │ │ │ ├── __init__.py │ │ │ ├── apply_delta.py │ │ │ ├── builder.py │ │ │ ├── consolidate.py │ │ │ ├── ferret_arch.py │ │ │ ├── language_model/ │ │ │ │ ├── ferret_gemma.py │ │ │ │ ├── ferret_llama.py │ │ │ │ └── ferret_mpt.py │ │ │ ├── make_delta.py │ │ │ ├── multimodal_encoder/ │ │ │ │ ├── builder.py │ │ │ │ └── clip_encoder.py │ │ │ ├── multimodal_projector/ │ │ │ │ └── builder.py │ │ │ └── utils.py │ │ ├── serve/ │ │ │ ├── __init__.py │ │ │ ├── cli.py │ │ │ ├── controller.py │ │ │ ├── gradio_web_server.py │ │ │ ├── model_worker.py │ │ │ ├── register_worker.py │ │ │ ├── sglang_worker.py │ │ │ └── test_message.py │ │ ├── train/ │ │ │ ├── ferret_trainer.py │ │ │ ├── llama_flash_attn_monkey_patch.py │ │ │ ├── llama_xformers_attn_monkey_patch.py │ │ │ ├── train.py │ │ │ ├── train_mem.py │ │ │ └── train_xformers.py │ │ └── utils.py │ ├── playground/ │ │ └── sample_data/ │ │ ├── eval_data_example_0_box_in.json │ │ ├── eval_data_example_1_no_box_in.json │ │ └── train_data_example.json │ ├── pyproject.toml │ └── scripts/ │ ├── eval/ │ │ └── eval_UI.sh │ ├── train/ │ │ └── train_UI.sh │ ├── zero2.json │ ├── zero3.json │ └── zero3_offload.json ├── pyproject.toml └── scripts/ ├── extract_geosampler_and_mm_projector.py └── verify_equal.py