gitextract_kiog4jd6/

├── README.md
├── configs/
│   ├── inference/
│   │   └── inference.yaml
│   └── train/
│       ├── train_mask_gen.yaml
│       └── train_renderer.yaml
├── data/
│   ├── sample_data/
│   │   └── train/
│   │       └── rgb/
│   │           └── example/
│   │               └── last_aligned_frame_inv.json
│   └── sample_data_processed/
│       └── train/
│           ├── llava_json.json
│           ├── rgb/
│           │   └── example/
│           │       └── last_aligned_frame_inv.json
│           └── text/
│               └── example/
│                   ├── 2_0:40.json
│                   ├── 3_0:53.json
│                   ├── 4_1:12.json
│                   ├── 5_1:28.json
│                   ├── 6_1:58.json
│                   ├── 7_2:19.json
│                   ├── 8_2:36.json
│                   ├── 9_2:43.json
│                   └── white_10_3:21.json
├── data_processing/
│   ├── run_llava/
│   │   ├── main.py
│   │   ├── make_list.py
│   │   └── utils.py
│   └── run_lpips/
│       └── main.py
├── dataset/
│   └── dataset.py
├── demo.py
├── models/
│   ├── ReferenceEncoder.py
│   ├── ReferenceNet.py
│   ├── ReferenceNet_attention.py
│   ├── ReferenceNet_attention_fp16.py
│   ├── attention.py
│   ├── clip_adapter.py
│   ├── hack_cur_image_guider.py
│   ├── hack_unet2d.py
│   ├── image_processor.py
│   ├── orig_attention.py
│   ├── positional_encoder.py
│   ├── resnet.py
│   ├── unet.py
│   └── unet_3d_blocks.py
├── pipelines/
│   ├── context.py
│   └── pipeline_stage_1.py
├── requirements.txt
├── training_scripts/
│   ├── llava/
│   │   ├── __init__.py
│   │   ├── constants.py
│   │   ├── conversation.py
│   │   ├── eval/
│   │   │   ├── eval_gpt_review.py
│   │   │   ├── eval_gpt_review_bench.py
│   │   │   ├── eval_gpt_review_visual.py
│   │   │   ├── eval_pope.py
│   │   │   ├── eval_science_qa.py
│   │   │   ├── eval_science_qa_gpt4.py
│   │   │   ├── eval_science_qa_gpt4_requery.py
│   │   │   ├── eval_textvqa.py
│   │   │   ├── generate_webpage_data_from_table.py
│   │   │   ├── m4c_evaluator.py
│   │   │   ├── model_qa.py
│   │   │   ├── model_vqa.py
│   │   │   ├── model_vqa_loader.py
│   │   │   ├── model_vqa_mmbench.py
│   │   │   ├── model_vqa_science.py
│   │   │   ├── qa_baseline_gpt35.py
│   │   │   ├── run_llava.py
│   │   │   ├── summarize_gpt_review.py
│   │   │   ├── table/
│   │   │   │   ├── answer/
│   │   │   │   │   ├── answer_alpaca-13b.jsonl
│   │   │   │   │   ├── answer_bard.jsonl
│   │   │   │   │   ├── answer_gpt35.jsonl
│   │   │   │   │   ├── answer_llama-13b.jsonl
│   │   │   │   │   └── answer_vicuna-13b.jsonl
│   │   │   │   ├── caps_boxes_coco2014_val_80.jsonl
│   │   │   │   ├── model.jsonl
│   │   │   │   ├── prompt.jsonl
│   │   │   │   ├── question.jsonl
│   │   │   │   ├── results/
│   │   │   │   │   ├── test_sqa_llava_13b_v0.json
│   │   │   │   │   └── test_sqa_llava_lcs_558k_sqa_12e_vicuna_v1_3_13b.json
│   │   │   │   ├── review/
│   │   │   │   │   ├── review_alpaca-13b_vicuna-13b.jsonl
│   │   │   │   │   ├── review_bard_vicuna-13b.jsonl
│   │   │   │   │   ├── review_gpt35_vicuna-13b.jsonl
│   │   │   │   │   └── review_llama-13b_vicuna-13b.jsonl
│   │   │   │   ├── reviewer.jsonl
│   │   │   │   └── rule.json
│   │   │   └── webpage/
│   │   │       ├── index.html
│   │   │       ├── script.js
│   │   │       └── styles.css
│   │   ├── mm_utils.py
│   │   ├── model/
│   │   │   ├── __init__.py
│   │   │   ├── apply_delta.py
│   │   │   ├── builder.py
│   │   │   ├── consolidate.py
│   │   │   ├── language_model/
│   │   │   │   ├── llava_llama.py
│   │   │   │   ├── llava_mistral.py
│   │   │   │   └── llava_mpt.py
│   │   │   ├── llava_arch.py
│   │   │   ├── make_delta.py
│   │   │   ├── multimodal_encoder/
│   │   │   │   ├── builder.py
│   │   │   │   └── clip_encoder.py
│   │   │   ├── multimodal_projector/
│   │   │   │   └── builder.py
│   │   │   └── utils.py
│   │   ├── serve/
│   │   │   ├── __init__.py
│   │   │   ├── cli.py
│   │   │   ├── controller.py
│   │   │   ├── gradio_web_server.py
│   │   │   ├── model_worker.py
│   │   │   ├── register_worker.py
│   │   │   ├── sglang_worker.py
│   │   │   └── test_message.py
│   │   ├── train/
│   │   │   ├── llama_flash_attn_monkey_patch.py
│   │   │   ├── llama_xformers_attn_monkey_patch.py
│   │   │   ├── llava_trainer.py
│   │   │   ├── train.py
│   │   │   ├── train_mem.py
│   │   │   └── train_xformers.py
│   │   └── utils.py
│   ├── merge_ckpt.sh
│   ├── scripts/
│   │   ├── merge_lora_weights.py
│   │   └── zero2.json
│   ├── train_mask_generator.py
│   ├── train_renderer.py
│   └── train_text_generator.sh
├── unet_2d/
│   ├── attention.py
│   ├── resnet.py
│   ├── unet_2d_blocks.py
│   └── unet_2d_condition.py
└── utils/
    ├── __init__.py
    ├── dist_tools.py
    ├── inference_helpers.py
    ├── llava_utils.py
    ├── text_wrapper.py
    └── util.py