gitextract_hcvjbjkn/

├── .gitignore
├── LICENSE
├── README.md
├── configs/
│   ├── openseed/
│   │   ├── openseed_swint_lang_joint.yaml
│   │   ├── openseed_swint_lang_joint_2st.yaml
│   │   └── openseed_swint_lang_joint_2st_visual_prompt.yaml
│   └── semsam/
│       └── visual_prompt_encoder.yaml
├── datasets_os/
│   ├── __init__.py
│   ├── build.py
│   ├── custom_dataset_dataloader.py
│   ├── dataset_mappers/
│   │   ├── __init__.py
│   │   ├── coco_instance_new_baseline_dataset_mapper.py
│   │   ├── coco_instruct_grounding_dataset_interactive_mapper.py
│   │   ├── coco_instruct_grounding_dataset_mapper.py
│   │   ├── coco_interactive_panoptic_new_baseline_dataset_mapper.py
│   │   ├── coco_panoptic_interactive_dataset_mapper.py
│   │   ├── coco_panoptic_new_baseline_dataset_mapper.py
│   │   ├── flickr_instance_new_baseline_dataset_mapper.py
│   │   ├── flickr_instance_new_baseline_dataset_mapper_.py
│   │   ├── flickr_instance_new_baseline_dataset_mapper_end.py
│   │   ├── flickr_new_baseline_dataset_mapper.py
│   │   ├── inference_mapper_with_gt.py
│   │   ├── llava_dataset_mapper.py
│   │   ├── refcoco_dataset_mapper.py
│   │   └── vg_instance_new_baseline_dataset_mapper.py
│   ├── refer.py
│   ├── registration/
│   │   ├── __init__.py
│   │   ├── register_coco_instruct_grounding_dataset.py
│   │   ├── register_coco_panoptic_annos_grounding_interactive.py
│   │   ├── register_flickr_dataset.py
│   │   └── register_vg_dataset.py
│   └── semseg_loader.py
├── docs/
│   └── MODEL_ZOO.md
├── gradio_demo/
│   ├── LLaVA_G_Demo.py
│   └── __init__.py
├── llava/
│   ├── __init__.py
│   ├── constants.py
│   ├── conversation.py
│   ├── eval/
│   │   ├── LLaVA_G_Eval.py
│   │   ├── eval_gpt_review.py
│   │   ├── eval_gpt_review_bench.py
│   │   ├── eval_gpt_review_visual.py
│   │   ├── eval_gpt_review_visual2.py
│   │   ├── eval_science_qa.py
│   │   ├── eval_science_qa_gpt4.py
│   │   ├── eval_science_qa_gpt4_requery.py
│   │   ├── generate_webpage_data_from_table.py
│   │   ├── llava_mapper.py
│   │   ├── model_qa.py
│   │   ├── model_vqa.py
│   │   ├── model_vqa_science.py
│   │   ├── qa_baseline_gpt35.py
│   │   ├── run_llava.py
│   │   ├── summarize_gpt_review.py
│   │   └── webpage/
│   │       ├── index.html
│   │       ├── script.js
│   │       └── styles.css
│   ├── mm_utils.py
│   ├── model/
│   │   ├── __init__.py
│   │   ├── apply_delta.py
│   │   ├── builder.py
│   │   ├── consolidate.py
│   │   ├── language_model/
│   │   │   ├── llava_llama.py
│   │   │   ├── llava_llama_gd.py
│   │   │   ├── llava_mpt.py
│   │   │   └── mpt/
│   │   │       ├── adapt_tokenizer.py
│   │   │       ├── attention.py
│   │   │       ├── blocks.py
│   │   │       ├── configuration_mpt.py
│   │   │       ├── custom_embedding.py
│   │   │       ├── flash_attn_triton.py
│   │   │       ├── hf_prefixlm_converter.py
│   │   │       ├── meta_init_context.py
│   │   │       ├── modeling_mpt.py
│   │   │       ├── norm.py
│   │   │       └── param_init_fns.py
│   │   ├── llava_arch.py
│   │   ├── make_delta.py
│   │   ├── multimodal_encoder/
│   │   │   ├── builder.py
│   │   │   └── clip_encoder.py
│   │   ├── openseed/
│   │   │   ├── BaseModel.py
│   │   │   ├── __init__.py
│   │   │   ├── architectures/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── build.py
│   │   │   │   ├── openseed_model.py
│   │   │   │   ├── openseed_model_decouple_train.py
│   │   │   │   └── registry.py
│   │   │   ├── backbone/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── backbone.py
│   │   │   │   ├── build.py
│   │   │   │   ├── focal.py
│   │   │   │   ├── focal_dw.py
│   │   │   │   ├── registry.py
│   │   │   │   └── swin.py
│   │   │   ├── body/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── build.py
│   │   │   │   ├── decoder/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── build.py
│   │   │   │   │   ├── modules.py
│   │   │   │   │   ├── openseed_decoder.py
│   │   │   │   │   ├── openseed_decoder_decouple.py
│   │   │   │   │   ├── registry.py
│   │   │   │   │   └── utils/
│   │   │   │   │       ├── __init__.py
│   │   │   │   │       ├── dino_decoder.py
│   │   │   │   │       └── utils.py
│   │   │   │   ├── encoder/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── build.py
│   │   │   │   │   ├── encoder_deform.py
│   │   │   │   │   ├── ops/
│   │   │   │   │   │   ├── functions/
│   │   │   │   │   │   │   ├── __init__.py
│   │   │   │   │   │   │   └── ms_deform_attn_func.py
│   │   │   │   │   │   ├── make.sh
│   │   │   │   │   │   ├── modules/
│   │   │   │   │   │   │   ├── __init__.py
│   │   │   │   │   │   │   └── ms_deform_attn.py
│   │   │   │   │   │   ├── setup.py
│   │   │   │   │   │   ├── src/
│   │   │   │   │   │   │   ├── cpu/
│   │   │   │   │   │   │   │   ├── ms_deform_attn_cpu.cpp
│   │   │   │   │   │   │   │   └── ms_deform_attn_cpu.h
│   │   │   │   │   │   │   ├── cuda/
│   │   │   │   │   │   │   │   ├── ms_deform_attn_cuda.cu
│   │   │   │   │   │   │   │   ├── ms_deform_attn_cuda.h
│   │   │   │   │   │   │   │   └── ms_deform_im2col_cuda.cuh
│   │   │   │   │   │   │   ├── ms_deform_attn.h
│   │   │   │   │   │   │   └── vision.cpp
│   │   │   │   │   │   └── test.py
│   │   │   │   │   ├── registry.py
│   │   │   │   │   └── transformer_encoder_fpn.py
│   │   │   │   ├── openseed_head.py
│   │   │   │   ├── registry.py
│   │   │   │   └── transformer_blocks.py
│   │   │   ├── language/
│   │   │   │   ├── LangEncoder/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── build.py
│   │   │   │   │   ├── registry.py
│   │   │   │   │   └── transformer.py
│   │   │   │   ├── __init__.py
│   │   │   │   ├── build.py
│   │   │   │   ├── encoder.py
│   │   │   │   ├── registry.py
│   │   │   │   └── vlpencoder.py
│   │   │   ├── modules/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── attention.py
│   │   │   │   ├── criterion.py
│   │   │   │   ├── matcher.py
│   │   │   │   ├── point_features.py
│   │   │   │   ├── position_encoding.py
│   │   │   │   └── postprocessing.py
│   │   │   └── utils/
│   │   │       ├── __init__.py
│   │   │       ├── box_ops.py
│   │   │       ├── config.py
│   │   │       └── misc.py
│   │   ├── semsam/
│   │   │   ├── BaseModel.py
│   │   │   ├── __init__.py
│   │   │   ├── architectures/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── build.py
│   │   │   │   ├── idino_model_partwhole_all_llm_ref_feats_all_det_pretrainv1.py
│   │   │   │   └── registry.py
│   │   │   ├── backbone/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── backbone.py
│   │   │   │   ├── build.py
│   │   │   │   ├── focal.py
│   │   │   │   ├── focal_dw.py
│   │   │   │   ├── registry.py
│   │   │   │   ├── swin.py
│   │   │   │   └── swin_new.py
│   │   │   ├── body/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── build.py
│   │   │   │   ├── decoder/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── build.py
│   │   │   │   │   ├── idino_decoder_no_iou_token_partwhole_all_llm.py
│   │   │   │   │   ├── modules.py
│   │   │   │   │   ├── registry.py
│   │   │   │   │   └── utils/
│   │   │   │   │       ├── __init__.py
│   │   │   │   │       ├── dino_decoder.py
│   │   │   │   │       └── utils.py
│   │   │   │   ├── encoder/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── build.py
│   │   │   │   │   ├── encoder_deform.py
│   │   │   │   │   ├── ops/
│   │   │   │   │   │   ├── functions/
│   │   │   │   │   │   │   ├── __init__.py
│   │   │   │   │   │   │   └── ms_deform_attn_func.py
│   │   │   │   │   │   ├── make.sh
│   │   │   │   │   │   ├── modules/
│   │   │   │   │   │   │   ├── __init__.py
│   │   │   │   │   │   │   └── ms_deform_attn.py
│   │   │   │   │   │   ├── setup.py
│   │   │   │   │   │   ├── src/
│   │   │   │   │   │   │   ├── cpu/
│   │   │   │   │   │   │   │   ├── ms_deform_attn_cpu.cpp
│   │   │   │   │   │   │   │   └── ms_deform_attn_cpu.h
│   │   │   │   │   │   │   ├── cuda/
│   │   │   │   │   │   │   │   ├── ms_deform_attn_cuda.cu
│   │   │   │   │   │   │   │   ├── ms_deform_attn_cuda.h
│   │   │   │   │   │   │   │   └── ms_deform_im2col_cuda.cuh
│   │   │   │   │   │   │   ├── ms_deform_attn.h
│   │   │   │   │   │   │   └── vision.cpp
│   │   │   │   │   │   └── test.py
│   │   │   │   │   ├── registry.py
│   │   │   │   │   └── transformer_encoder_fpn.py
│   │   │   │   ├── openseed_head.py
│   │   │   │   ├── registry.py
│   │   │   │   └── transformer_blocks.py
│   │   │   ├── language/
│   │   │   │   ├── LangEncoder/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── build.py
│   │   │   │   │   ├── registry.py
│   │   │   │   │   └── transformer.py
│   │   │   │   ├── __init__.py
│   │   │   │   ├── build.py
│   │   │   │   ├── encoder.py
│   │   │   │   ├── fixencoder.py
│   │   │   │   ├── llama_encoder.py
│   │   │   │   ├── loss.py
│   │   │   │   ├── misc.py
│   │   │   │   ├── modeling_llama_os.py
│   │   │   │   ├── registry.py
│   │   │   │   └── vlpencoder.py
│   │   │   ├── modules/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── attention.py
│   │   │   │   ├── criterion_id_llm.py
│   │   │   │   ├── hooks.py
│   │   │   │   ├── matcher.py
│   │   │   │   ├── point_features.py
│   │   │   │   ├── position_encoding.py
│   │   │   │   └── postprocessing.py
│   │   │   └── utils/
│   │   │       ├── __init__.py
│   │   │       ├── box_ops.py
│   │   │       ├── config.py
│   │   │       └── misc.py
│   │   └── utils.py
│   ├── serve/
│   │   ├── __init__.py
│   │   ├── cli.py
│   │   ├── controller.py
│   │   ├── gradio_web_server.py
│   │   ├── register_worker.py
│   │   └── test_message.py
│   ├── train/
│   │   ├── llama_flash_attn_monkey_patch.py
│   │   ├── llava_trainer.py
│   │   ├── llava_trainer_gd.py
│   │   ├── llava_trainer_joint_train.py
│   │   ├── train.py
│   │   ├── train_grounding_1st.py
│   │   ├── train_joint_1st.py
│   │   ├── train_joint_2st.py
│   │   ├── train_joint_2st_interactive_refcoco_coco_instruction.py
│   │   └── train_mem.py
│   └── utils.py
├── pyproject.toml
├── scripts/
│   ├── convert_sqa_to_llava.py
│   ├── convert_sqa_to_llava_base_prompt.py
│   ├── finetune.sh
│   ├── finetune_visual_prompt.sh
│   ├── merge_lora_weights.py
│   └── pretrain_joint.sh
└── utils/
    ├── Config.py
    ├── __init__.py
    ├── arguments.py
    ├── constants.py
    ├── constants_ori.py
    ├── dist.py
    ├── distributed.py
    ├── misc.py
    ├── model.py
    ├── nms.py
    ├── prompt_engineering.py
    ├── utils.py
    └── visualizer.py