gitextract_kubh4hae/ ├── LICENSE ├── README.md ├── docs/ │ ├── INFERENCE.md │ └── TRAIN_EVAL.md ├── llavamod/ │ ├── __init__.py │ ├── config/ │ │ ├── __init__.py │ │ ├── args.py │ │ └── dpconfig/ │ │ ├── dpo_zero2.json │ │ ├── dpo_zero2_offload.json │ │ ├── zero2.json │ │ ├── zero2_offload.json │ │ ├── zero3.json │ │ └── zero3_offload.json │ ├── constants.py │ ├── conversation.py │ ├── data/ │ │ ├── __init__.py │ │ ├── data_utils.py │ │ └── dataset.py │ ├── eval/ │ │ ├── __init__.py │ │ ├── eval_gpt_mmhal.py │ │ ├── eval_gpt_objhal.py │ │ ├── eval_gpt_review.py │ │ ├── eval_gpt_review_bench.py │ │ ├── eval_gpt_review_visual.py │ │ ├── eval_gqa.py │ │ ├── eval_gqa_1.py │ │ ├── eval_pope.py │ │ ├── eval_science_qa.py │ │ ├── eval_science_qa_gpt4.py │ │ ├── eval_science_qa_gpt4_requery.py │ │ ├── eval_textvqa.py │ │ ├── generate_webpage_data_from_table.py │ │ ├── gpt4_grpc.py │ │ ├── m4c_evaluator.py │ │ ├── model_qa.py │ │ ├── model_vqa.py │ │ ├── model_vqa_loader.py │ │ ├── model_vqa_mmbench.py │ │ ├── model_vqa_mmhal.py │ │ ├── model_vqa_objhal.py │ │ ├── model_vqa_qbench.py │ │ ├── model_vqa_science.py │ │ ├── qa_baseline_gpt35.py │ │ ├── run_llava.py │ │ ├── summarize_gpt_review.py │ │ ├── table/ │ │ │ ├── answer/ │ │ │ │ ├── answer_alpaca-13b.jsonl │ │ │ │ ├── answer_bard.jsonl │ │ │ │ ├── answer_gpt35.jsonl │ │ │ │ ├── answer_llama-13b.jsonl │ │ │ │ └── answer_vicuna-13b.jsonl │ │ │ ├── caps_boxes_coco2014_val_80.jsonl │ │ │ ├── model.jsonl │ │ │ ├── prompt.jsonl │ │ │ ├── question.jsonl │ │ │ ├── results/ │ │ │ │ ├── test_sqa_llava_13b_v0.json │ │ │ │ └── test_sqa_llava_lcs_558k_sqa_12e_vicuna_v1_3_13b.json │ │ │ ├── review/ │ │ │ │ ├── review_alpaca-13b_vicuna-13b.jsonl │ │ │ │ ├── review_bard_vicuna-13b.jsonl │ │ │ │ ├── review_gpt35_vicuna-13b.jsonl │ │ │ │ └── review_llama-13b_vicuna-13b.jsonl │ │ │ ├── reviewer.jsonl │ │ │ └── rule.json │ │ └── webpage/ │ │ ├── index.html │ │ ├── script.js │ │ └── styles.css │ ├── mm_utils.py │ ├── model/ │ │ ├── __init__.py │ │ ├── apply_delta.py │ │ ├── builder.py │ │ ├── cache_utils.py │ │ ├── consolidate.py │ │ ├── import_utils.py │ │ ├── language_model/ │ │ │ ├── gemma2/ │ │ │ │ ├── configuration_gemma2.py │ │ │ │ ├── modeling_gemma2.py │ │ │ │ ├── tokenization_gemma2.py │ │ │ │ └── tokenization_gemma2_fast.py │ │ │ ├── llama/ │ │ │ │ ├── configuration_llama.py │ │ │ │ └── modeling_llama.py │ │ │ ├── llava_gemma2.py │ │ │ ├── llava_gemma2_moe.py │ │ │ ├── llava_llama.py │ │ │ ├── llava_llama_moe.py │ │ │ ├── llava_minicpm.py │ │ │ ├── llava_minicpm_moe.py │ │ │ ├── llava_mistral.py │ │ │ ├── llava_mistral_moe.py │ │ │ ├── llava_mpt.py │ │ │ ├── llava_phi.py │ │ │ ├── llava_phi_moe.py │ │ │ ├── llava_qwen.py │ │ │ ├── llava_qwen1_5.py │ │ │ ├── llava_qwen1_5_moe.py │ │ │ ├── llava_qwen2.py │ │ │ ├── llava_qwen2_moe.py │ │ │ ├── llava_qwen_moe.py │ │ │ ├── llava_stablelm.py │ │ │ ├── llava_stablelm_moe.py │ │ │ ├── minicpm/ │ │ │ │ ├── configuration_minicpm.py │ │ │ │ └── modeling_minicpm.py │ │ │ ├── mpt/ │ │ │ │ ├── adapt_tokenizer.py │ │ │ │ ├── attention.py │ │ │ │ ├── blocks.py │ │ │ │ ├── configuration_mpt.py │ │ │ │ ├── custom_embedding.py │ │ │ │ ├── flash_attn_triton.py │ │ │ │ ├── hf_prefixlm_converter.py │ │ │ │ ├── meta_init_context.py │ │ │ │ ├── modeling_mpt.py │ │ │ │ ├── norm.py │ │ │ │ └── param_init_fns.py │ │ │ ├── phi/ │ │ │ │ ├── configuration_phi.py │ │ │ │ └── modeling_phi.py │ │ │ ├── qwen/ │ │ │ │ ├── configuration_qwen.py │ │ │ │ ├── cpp_kernels.py │ │ │ │ ├── modeling_qwen.py │ │ │ │ ├── qwen_generation_utils.py │ │ │ │ └── tokenization_qwen.py │ │ │ ├── qwen1_5/ │ │ │ │ ├── configuration_qwen2.py │ │ │ │ └── modeling_qwen2.py │ │ │ ├── qwen2/ │ │ │ │ ├── configuration_qwen2.py │ │ │ │ └── modeling_qwen2.py │ │ │ └── stablelm/ │ │ │ ├── configuration_stablelm_epoch.py │ │ │ ├── modeling_stablelm_epoch.py │ │ │ └── tokenization_arcade100k.py │ │ ├── llava_arch.py │ │ ├── make_delta.py │ │ ├── modeling_flash_attention_utils.py │ │ ├── multimodal_encoder/ │ │ │ ├── builder.py │ │ │ ├── clip_encoder.py │ │ │ ├── clips2_encoder.py │ │ │ └── siglip_encoder.py │ │ ├── multimodal_projector/ │ │ │ ├── builder.py │ │ │ ├── pool_block.py │ │ │ ├── qformer.py │ │ │ └── simple_block.py │ │ └── utils.py │ ├── serve/ │ │ ├── __init__.py │ │ ├── cli.py │ │ └── utils.py │ ├── train/ │ │ ├── __init__.py │ │ ├── align_train.py │ │ ├── align_trainer.py │ │ ├── dpo_train.py │ │ ├── dpo_trainer.py │ │ ├── llava_trainer.py │ │ ├── train.py │ │ └── train_utils.py │ └── utils.py ├── requirements.txt ├── scripts/ │ ├── activated_params.py │ ├── convert_gqa_for_eval.py │ ├── convert_mmbench_for_submission.py │ ├── convert_mmvet_for_eval.py │ ├── convert_seed_for_submission.py │ ├── convert_sqa_to_llava.py │ ├── convert_sqa_to_llava_base_prompt.py │ ├── convert_vizwiz_for_submission.py │ ├── convert_vqav2_for_submission.py │ ├── extract_mm_projector.py │ ├── kill.py │ ├── merge_lora_weights.py │ ├── merge_moe_lora_weights.py │ ├── sqa_eval_batch.sh │ └── sqa_eval_gather.sh └── shells/ ├── eval/ │ ├── gqa.sh │ ├── mmbench.sh │ ├── mmbench_cn.sh │ ├── mme.sh │ ├── mmhal.sh │ ├── objhal.sh │ ├── pope.sh │ ├── sqa.sh │ ├── textvqa.sh │ └── vizwiz.sh ├── inference/ │ └── cli_inference.sh └── train/ └── qwen/ ├── dense2dense_distillation.sh ├── dense2sparse_distillation.sh ├── finetune.sh ├── finetune_moe.sh ├── preference_distillation.sh └── pretrain.sh