gitextract_k3bn1c1l/ ├── .gitignore ├── CKPT_PTH.py ├── FaithDiff/ │ ├── create_FaithDiff_model.py │ ├── models/ │ │ ├── bsrnet_arch.py │ │ └── unet_2d_condition_vae_extension.py │ ├── pipelines/ │ │ ├── __init__.py │ │ ├── pipeline_FaithDiff_tlc.py │ │ └── pipeline_output.py │ └── training_utils.py ├── LICENSE ├── README.md ├── dataloader/ │ ├── Realesrgan_offline_dataset.py │ ├── accelerate_config.yaml │ ├── realesrgan.py │ └── train_kernel.yml ├── environment.yml ├── gradio_demo.py ├── llava/ │ ├── __init__.py │ ├── constants.py │ ├── conversation.py │ ├── eval/ │ │ ├── eval_gpt_review.py │ │ ├── eval_gpt_review_bench.py │ │ ├── eval_gpt_review_visual.py │ │ ├── eval_pope.py │ │ ├── eval_science_qa.py │ │ ├── eval_science_qa_gpt4.py │ │ ├── eval_science_qa_gpt4_requery.py │ │ ├── eval_textvqa.py │ │ ├── generate_webpage_data_from_table.py │ │ ├── m4c_evaluator.py │ │ ├── model_qa.py │ │ ├── model_vqa.py │ │ ├── model_vqa_loader.py │ │ ├── model_vqa_mmbench.py │ │ ├── model_vqa_science.py │ │ ├── qa_baseline_gpt35.py │ │ ├── run_llava.py │ │ ├── summarize_gpt_review.py │ │ ├── table/ │ │ │ ├── answer/ │ │ │ │ ├── answer_alpaca-13b.jsonl │ │ │ │ ├── answer_bard.jsonl │ │ │ │ ├── answer_gpt35.jsonl │ │ │ │ ├── answer_llama-13b.jsonl │ │ │ │ └── answer_vicuna-13b.jsonl │ │ │ ├── caps_boxes_coco2014_val_80.jsonl │ │ │ ├── model.jsonl │ │ │ ├── prompt.jsonl │ │ │ ├── question.jsonl │ │ │ ├── results/ │ │ │ │ ├── test_sqa_llava_13b_v0.json │ │ │ │ └── test_sqa_llava_lcs_558k_sqa_12e_vicuna_v1_3_13b.json │ │ │ ├── review/ │ │ │ │ ├── review_alpaca-13b_vicuna-13b.jsonl │ │ │ │ ├── review_bard_vicuna-13b.jsonl │ │ │ │ ├── review_gpt35_vicuna-13b.jsonl │ │ │ │ └── review_llama-13b_vicuna-13b.jsonl │ │ │ ├── reviewer.jsonl │ │ │ └── rule.json │ │ └── webpage/ │ │ ├── index.html │ │ ├── script.js │ │ └── styles.css │ ├── llm_agent.py │ ├── mm_utils.py │ ├── model/ │ │ ├── __init__.py │ │ ├── apply_delta.py │ │ ├── builder.py │ │ ├── consolidate.py │ │ ├── language_model/ │ │ │ ├── llava_llama.py │ │ │ ├── llava_mistral.py │ │ │ └── llava_mpt.py │ │ ├── llava_arch.py │ │ ├── make_delta.py │ │ ├── multimodal_encoder/ │ │ │ ├── builder.py │ │ │ └── clip_encoder.py │ │ ├── multimodal_projector/ │ │ │ └── builder.py │ │ └── utils.py │ ├── serve/ │ │ ├── __init__.py │ │ ├── cli.py │ │ ├── controller.py │ │ ├── gradio_web_server.py │ │ ├── model_worker.py │ │ ├── register_worker.py │ │ ├── sglang_worker.py │ │ └── test_message.py │ ├── train/ │ │ ├── llama_flash_attn_monkey_patch.py │ │ ├── llama_xformers_attn_monkey_patch.py │ │ ├── llava_trainer.py │ │ ├── train.py │ │ ├── train_mem.py │ │ └── train_xformers.py │ └── utils.py ├── requirements.txt ├── test.py ├── test_generate_caption.py ├── test_metrics.py ├── test_wo_llava.py ├── train_SDXL_stage_1.py ├── train_SDXL_stage_2.py ├── train_stage_1.sh ├── train_stage_2.sh └── utils/ ├── color_fix.py ├── image_process.py └── system.py