gitextract_kiog4jd6/ ├── README.md ├── configs/ │ ├── inference/ │ │ └── inference.yaml │ └── train/ │ ├── train_mask_gen.yaml │ └── train_renderer.yaml ├── data/ │ ├── sample_data/ │ │ └── train/ │ │ └── rgb/ │ │ └── example/ │ │ └── last_aligned_frame_inv.json │ └── sample_data_processed/ │ └── train/ │ ├── llava_json.json │ ├── rgb/ │ │ └── example/ │ │ └── last_aligned_frame_inv.json │ └── text/ │ └── example/ │ ├── 2_0:40.json │ ├── 3_0:53.json │ ├── 4_1:12.json │ ├── 5_1:28.json │ ├── 6_1:58.json │ ├── 7_2:19.json │ ├── 8_2:36.json │ ├── 9_2:43.json │ └── white_10_3:21.json ├── data_processing/ │ ├── run_llava/ │ │ ├── main.py │ │ ├── make_list.py │ │ └── utils.py │ └── run_lpips/ │ └── main.py ├── dataset/ │ └── dataset.py ├── demo.py ├── models/ │ ├── ReferenceEncoder.py │ ├── ReferenceNet.py │ ├── ReferenceNet_attention.py │ ├── ReferenceNet_attention_fp16.py │ ├── attention.py │ ├── clip_adapter.py │ ├── hack_cur_image_guider.py │ ├── hack_unet2d.py │ ├── image_processor.py │ ├── orig_attention.py │ ├── positional_encoder.py │ ├── resnet.py │ ├── unet.py │ └── unet_3d_blocks.py ├── pipelines/ │ ├── context.py │ └── pipeline_stage_1.py ├── requirements.txt ├── training_scripts/ │ ├── llava/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── conversation.py │ │ ├── eval/ │ │ │ ├── eval_gpt_review.py │ │ │ ├── eval_gpt_review_bench.py │ │ │ ├── eval_gpt_review_visual.py │ │ │ ├── eval_pope.py │ │ │ ├── eval_science_qa.py │ │ │ ├── eval_science_qa_gpt4.py │ │ │ ├── eval_science_qa_gpt4_requery.py │ │ │ ├── eval_textvqa.py │ │ │ ├── generate_webpage_data_from_table.py │ │ │ ├── m4c_evaluator.py │ │ │ ├── model_qa.py │ │ │ ├── model_vqa.py │ │ │ ├── model_vqa_loader.py │ │ │ ├── model_vqa_mmbench.py │ │ │ ├── model_vqa_science.py │ │ │ ├── qa_baseline_gpt35.py │ │ │ ├── run_llava.py │ │ │ ├── summarize_gpt_review.py │ │ │ ├── table/ │ │ │ │ ├── answer/ │ │ │ │ │ ├── answer_alpaca-13b.jsonl │ │ │ │ │ ├── answer_bard.jsonl │ │ │ │ │ ├── answer_gpt35.jsonl │ │ │ │ │ ├── answer_llama-13b.jsonl │ │ │ │ │ └── answer_vicuna-13b.jsonl │ │ │ │ ├── caps_boxes_coco2014_val_80.jsonl │ │ │ │ ├── model.jsonl │ │ │ │ ├── prompt.jsonl │ │ │ │ ├── question.jsonl │ │ │ │ ├── results/ │ │ │ │ │ ├── test_sqa_llava_13b_v0.json │ │ │ │ │ └── test_sqa_llava_lcs_558k_sqa_12e_vicuna_v1_3_13b.json │ │ │ │ ├── review/ │ │ │ │ │ ├── review_alpaca-13b_vicuna-13b.jsonl │ │ │ │ │ ├── review_bard_vicuna-13b.jsonl │ │ │ │ │ ├── review_gpt35_vicuna-13b.jsonl │ │ │ │ │ └── review_llama-13b_vicuna-13b.jsonl │ │ │ │ ├── reviewer.jsonl │ │ │ │ └── rule.json │ │ │ └── webpage/ │ │ │ ├── index.html │ │ │ ├── script.js │ │ │ └── styles.css │ │ ├── mm_utils.py │ │ ├── model/ │ │ │ ├── __init__.py │ │ │ ├── apply_delta.py │ │ │ ├── builder.py │ │ │ ├── consolidate.py │ │ │ ├── language_model/ │ │ │ │ ├── llava_llama.py │ │ │ │ ├── llava_mistral.py │ │ │ │ └── llava_mpt.py │ │ │ ├── llava_arch.py │ │ │ ├── make_delta.py │ │ │ ├── multimodal_encoder/ │ │ │ │ ├── builder.py │ │ │ │ └── clip_encoder.py │ │ │ ├── multimodal_projector/ │ │ │ │ └── builder.py │ │ │ └── utils.py │ │ ├── serve/ │ │ │ ├── __init__.py │ │ │ ├── cli.py │ │ │ ├── controller.py │ │ │ ├── gradio_web_server.py │ │ │ ├── model_worker.py │ │ │ ├── register_worker.py │ │ │ ├── sglang_worker.py │ │ │ └── test_message.py │ │ ├── train/ │ │ │ ├── llama_flash_attn_monkey_patch.py │ │ │ ├── llama_xformers_attn_monkey_patch.py │ │ │ ├── llava_trainer.py │ │ │ ├── train.py │ │ │ ├── train_mem.py │ │ │ └── train_xformers.py │ │ └── utils.py │ ├── merge_ckpt.sh │ ├── scripts/ │ │ ├── merge_lora_weights.py │ │ └── zero2.json │ ├── train_mask_generator.py │ ├── train_renderer.py │ └── train_text_generator.sh ├── unet_2d/ │ ├── attention.py │ ├── resnet.py │ ├── unet_2d_blocks.py │ └── unet_2d_condition.py └── utils/ ├── __init__.py ├── dist_tools.py ├── inference_helpers.py ├── llava_utils.py ├── text_wrapper.py └── util.py