gitextract_hcvjbjkn/ ├── .gitignore ├── LICENSE ├── README.md ├── configs/ │ ├── openseed/ │ │ ├── openseed_swint_lang_joint.yaml │ │ ├── openseed_swint_lang_joint_2st.yaml │ │ └── openseed_swint_lang_joint_2st_visual_prompt.yaml │ └── semsam/ │ └── visual_prompt_encoder.yaml ├── datasets_os/ │ ├── __init__.py │ ├── build.py │ ├── custom_dataset_dataloader.py │ ├── dataset_mappers/ │ │ ├── __init__.py │ │ ├── coco_instance_new_baseline_dataset_mapper.py │ │ ├── coco_instruct_grounding_dataset_interactive_mapper.py │ │ ├── coco_instruct_grounding_dataset_mapper.py │ │ ├── coco_interactive_panoptic_new_baseline_dataset_mapper.py │ │ ├── coco_panoptic_interactive_dataset_mapper.py │ │ ├── coco_panoptic_new_baseline_dataset_mapper.py │ │ ├── flickr_instance_new_baseline_dataset_mapper.py │ │ ├── flickr_instance_new_baseline_dataset_mapper_.py │ │ ├── flickr_instance_new_baseline_dataset_mapper_end.py │ │ ├── flickr_new_baseline_dataset_mapper.py │ │ ├── inference_mapper_with_gt.py │ │ ├── llava_dataset_mapper.py │ │ ├── refcoco_dataset_mapper.py │ │ └── vg_instance_new_baseline_dataset_mapper.py │ ├── refer.py │ ├── registration/ │ │ ├── __init__.py │ │ ├── register_coco_instruct_grounding_dataset.py │ │ ├── register_coco_panoptic_annos_grounding_interactive.py │ │ ├── register_flickr_dataset.py │ │ └── register_vg_dataset.py │ └── semseg_loader.py ├── docs/ │ └── MODEL_ZOO.md ├── gradio_demo/ │ ├── LLaVA_G_Demo.py │ └── __init__.py ├── llava/ │ ├── __init__.py │ ├── constants.py │ ├── conversation.py │ ├── eval/ │ │ ├── LLaVA_G_Eval.py │ │ ├── eval_gpt_review.py │ │ ├── eval_gpt_review_bench.py │ │ ├── eval_gpt_review_visual.py │ │ ├── eval_gpt_review_visual2.py │ │ ├── eval_science_qa.py │ │ ├── eval_science_qa_gpt4.py │ │ ├── eval_science_qa_gpt4_requery.py │ │ ├── generate_webpage_data_from_table.py │ │ ├── llava_mapper.py │ │ ├── model_qa.py │ │ ├── model_vqa.py │ │ ├── model_vqa_science.py │ │ ├── qa_baseline_gpt35.py │ │ ├── run_llava.py │ │ ├── summarize_gpt_review.py │ │ └── webpage/ │ │ ├── index.html │ │ ├── script.js │ │ └── styles.css │ ├── mm_utils.py │ ├── model/ │ │ ├── __init__.py │ │ ├── apply_delta.py │ │ ├── builder.py │ │ ├── consolidate.py │ │ ├── language_model/ │ │ │ ├── llava_llama.py │ │ │ ├── llava_llama_gd.py │ │ │ ├── llava_mpt.py │ │ │ └── mpt/ │ │ │ ├── adapt_tokenizer.py │ │ │ ├── attention.py │ │ │ ├── blocks.py │ │ │ ├── configuration_mpt.py │ │ │ ├── custom_embedding.py │ │ │ ├── flash_attn_triton.py │ │ │ ├── hf_prefixlm_converter.py │ │ │ ├── meta_init_context.py │ │ │ ├── modeling_mpt.py │ │ │ ├── norm.py │ │ │ └── param_init_fns.py │ │ ├── llava_arch.py │ │ ├── make_delta.py │ │ ├── multimodal_encoder/ │ │ │ ├── builder.py │ │ │ └── clip_encoder.py │ │ ├── openseed/ │ │ │ ├── BaseModel.py │ │ │ ├── __init__.py │ │ │ ├── architectures/ │ │ │ │ ├── __init__.py │ │ │ │ ├── build.py │ │ │ │ ├── openseed_model.py │ │ │ │ ├── openseed_model_decouple_train.py │ │ │ │ └── registry.py │ │ │ ├── backbone/ │ │ │ │ ├── __init__.py │ │ │ │ ├── backbone.py │ │ │ │ ├── build.py │ │ │ │ ├── focal.py │ │ │ │ ├── focal_dw.py │ │ │ │ ├── registry.py │ │ │ │ └── swin.py │ │ │ ├── body/ │ │ │ │ ├── __init__.py │ │ │ │ ├── build.py │ │ │ │ ├── decoder/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── build.py │ │ │ │ │ ├── modules.py │ │ │ │ │ ├── openseed_decoder.py │ │ │ │ │ ├── openseed_decoder_decouple.py │ │ │ │ │ ├── registry.py │ │ │ │ │ └── utils/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── dino_decoder.py │ │ │ │ │ └── utils.py │ │ │ │ ├── encoder/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── build.py │ │ │ │ │ ├── encoder_deform.py │ │ │ │ │ ├── ops/ │ │ │ │ │ │ ├── functions/ │ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ │ └── ms_deform_attn_func.py │ │ │ │ │ │ ├── make.sh │ │ │ │ │ │ ├── modules/ │ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ │ └── ms_deform_attn.py │ │ │ │ │ │ ├── setup.py │ │ │ │ │ │ ├── src/ │ │ │ │ │ │ │ ├── cpu/ │ │ │ │ │ │ │ │ ├── ms_deform_attn_cpu.cpp │ │ │ │ │ │ │ │ └── ms_deform_attn_cpu.h │ │ │ │ │ │ │ ├── cuda/ │ │ │ │ │ │ │ │ ├── ms_deform_attn_cuda.cu │ │ │ │ │ │ │ │ ├── ms_deform_attn_cuda.h │ │ │ │ │ │ │ │ └── ms_deform_im2col_cuda.cuh │ │ │ │ │ │ │ ├── ms_deform_attn.h │ │ │ │ │ │ │ └── vision.cpp │ │ │ │ │ │ └── test.py │ │ │ │ │ ├── registry.py │ │ │ │ │ └── transformer_encoder_fpn.py │ │ │ │ ├── openseed_head.py │ │ │ │ ├── registry.py │ │ │ │ └── transformer_blocks.py │ │ │ ├── language/ │ │ │ │ ├── LangEncoder/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── build.py │ │ │ │ │ ├── registry.py │ │ │ │ │ └── transformer.py │ │ │ │ ├── __init__.py │ │ │ │ ├── build.py │ │ │ │ ├── encoder.py │ │ │ │ ├── registry.py │ │ │ │ └── vlpencoder.py │ │ │ ├── modules/ │ │ │ │ ├── __init__.py │ │ │ │ ├── attention.py │ │ │ │ ├── criterion.py │ │ │ │ ├── matcher.py │ │ │ │ ├── point_features.py │ │ │ │ ├── position_encoding.py │ │ │ │ └── postprocessing.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ ├── box_ops.py │ │ │ ├── config.py │ │ │ └── misc.py │ │ ├── semsam/ │ │ │ ├── BaseModel.py │ │ │ ├── __init__.py │ │ │ ├── architectures/ │ │ │ │ ├── __init__.py │ │ │ │ ├── build.py │ │ │ │ ├── idino_model_partwhole_all_llm_ref_feats_all_det_pretrainv1.py │ │ │ │ └── registry.py │ │ │ ├── backbone/ │ │ │ │ ├── __init__.py │ │ │ │ ├── backbone.py │ │ │ │ ├── build.py │ │ │ │ ├── focal.py │ │ │ │ ├── focal_dw.py │ │ │ │ ├── registry.py │ │ │ │ ├── swin.py │ │ │ │ └── swin_new.py │ │ │ ├── body/ │ │ │ │ ├── __init__.py │ │ │ │ ├── build.py │ │ │ │ ├── decoder/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── build.py │ │ │ │ │ ├── idino_decoder_no_iou_token_partwhole_all_llm.py │ │ │ │ │ ├── modules.py │ │ │ │ │ ├── registry.py │ │ │ │ │ └── utils/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── dino_decoder.py │ │ │ │ │ └── utils.py │ │ │ │ ├── encoder/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── build.py │ │ │ │ │ ├── encoder_deform.py │ │ │ │ │ ├── ops/ │ │ │ │ │ │ ├── functions/ │ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ │ └── ms_deform_attn_func.py │ │ │ │ │ │ ├── make.sh │ │ │ │ │ │ ├── modules/ │ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ │ └── ms_deform_attn.py │ │ │ │ │ │ ├── setup.py │ │ │ │ │ │ ├── src/ │ │ │ │ │ │ │ ├── cpu/ │ │ │ │ │ │ │ │ ├── ms_deform_attn_cpu.cpp │ │ │ │ │ │ │ │ └── ms_deform_attn_cpu.h │ │ │ │ │ │ │ ├── cuda/ │ │ │ │ │ │ │ │ ├── ms_deform_attn_cuda.cu │ │ │ │ │ │ │ │ ├── ms_deform_attn_cuda.h │ │ │ │ │ │ │ │ └── ms_deform_im2col_cuda.cuh │ │ │ │ │ │ │ ├── ms_deform_attn.h │ │ │ │ │ │ │ └── vision.cpp │ │ │ │ │ │ └── test.py │ │ │ │ │ ├── registry.py │ │ │ │ │ └── transformer_encoder_fpn.py │ │ │ │ ├── openseed_head.py │ │ │ │ ├── registry.py │ │ │ │ └── transformer_blocks.py │ │ │ ├── language/ │ │ │ │ ├── LangEncoder/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── build.py │ │ │ │ │ ├── registry.py │ │ │ │ │ └── transformer.py │ │ │ │ ├── __init__.py │ │ │ │ ├── build.py │ │ │ │ ├── encoder.py │ │ │ │ ├── fixencoder.py │ │ │ │ ├── llama_encoder.py │ │ │ │ ├── loss.py │ │ │ │ ├── misc.py │ │ │ │ ├── modeling_llama_os.py │ │ │ │ ├── registry.py │ │ │ │ └── vlpencoder.py │ │ │ ├── modules/ │ │ │ │ ├── __init__.py │ │ │ │ ├── attention.py │ │ │ │ ├── criterion_id_llm.py │ │ │ │ ├── hooks.py │ │ │ │ ├── matcher.py │ │ │ │ ├── point_features.py │ │ │ │ ├── position_encoding.py │ │ │ │ └── postprocessing.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ ├── box_ops.py │ │ │ ├── config.py │ │ │ └── misc.py │ │ └── utils.py │ ├── serve/ │ │ ├── __init__.py │ │ ├── cli.py │ │ ├── controller.py │ │ ├── gradio_web_server.py │ │ ├── register_worker.py │ │ └── test_message.py │ ├── train/ │ │ ├── llama_flash_attn_monkey_patch.py │ │ ├── llava_trainer.py │ │ ├── llava_trainer_gd.py │ │ ├── llava_trainer_joint_train.py │ │ ├── train.py │ │ ├── train_grounding_1st.py │ │ ├── train_joint_1st.py │ │ ├── train_joint_2st.py │ │ ├── train_joint_2st_interactive_refcoco_coco_instruction.py │ │ └── train_mem.py │ └── utils.py ├── pyproject.toml ├── scripts/ │ ├── convert_sqa_to_llava.py │ ├── convert_sqa_to_llava_base_prompt.py │ ├── finetune.sh │ ├── finetune_visual_prompt.sh │ ├── merge_lora_weights.py │ └── pretrain_joint.sh └── utils/ ├── Config.py ├── __init__.py ├── arguments.py ├── constants.py ├── constants_ori.py ├── dist.py ├── distributed.py ├── misc.py ├── model.py ├── nms.py ├── prompt_engineering.py ├── utils.py └── visualizer.py