gitextract_qarvn3ca/

├── .gitignore
├── .gitmodules
├── README.md
├── XMem/
│   ├── dataset/
│   │   ├── __init__.py
│   │   ├── range_transform.py
│   │   ├── reseed.py
│   │   ├── static_dataset.py
│   │   ├── tps.py
│   │   ├── util.py
│   │   └── vos_dataset.py
│   ├── eval.py
│   ├── eval_batch.py
│   ├── generate_xmem_data_single.py
│   ├── inference/
│   │   ├── __init__.py
│   │   ├── data/
│   │   │   ├── __init__.py
│   │   │   ├── mask_mapper.py
│   │   │   ├── test_datasets.py
│   │   │   └── video_reader.py
│   │   ├── inference_core.py
│   │   ├── interact/
│   │   │   ├── __init__.py
│   │   │   ├── fbrs/
│   │   │   │   ├── LICENSE
│   │   │   │   ├── __init__.py
│   │   │   │   ├── controller.py
│   │   │   │   ├── inference/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── clicker.py
│   │   │   │   │   ├── evaluation.py
│   │   │   │   │   ├── predictors/
│   │   │   │   │   │   ├── __init__.py
│   │   │   │   │   │   ├── base.py
│   │   │   │   │   │   ├── brs.py
│   │   │   │   │   │   ├── brs_functors.py
│   │   │   │   │   │   └── brs_losses.py
│   │   │   │   │   ├── transforms/
│   │   │   │   │   │   ├── __init__.py
│   │   │   │   │   │   ├── base.py
│   │   │   │   │   │   ├── crops.py
│   │   │   │   │   │   ├── flip.py
│   │   │   │   │   │   ├── limit_longest_side.py
│   │   │   │   │   │   └── zoom_in.py
│   │   │   │   │   └── utils.py
│   │   │   │   ├── model/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── initializer.py
│   │   │   │   │   ├── is_deeplab_model.py
│   │   │   │   │   ├── is_hrnet_model.py
│   │   │   │   │   ├── losses.py
│   │   │   │   │   ├── metrics.py
│   │   │   │   │   ├── modeling/
│   │   │   │   │   │   ├── __init__.py
│   │   │   │   │   │   ├── basic_blocks.py
│   │   │   │   │   │   ├── deeplab_v3.py
│   │   │   │   │   │   ├── hrnet_ocr.py
│   │   │   │   │   │   ├── ocr.py
│   │   │   │   │   │   ├── resnet.py
│   │   │   │   │   │   └── resnetv1b.py
│   │   │   │   │   ├── ops.py
│   │   │   │   │   └── syncbn/
│   │   │   │   │       ├── LICENSE
│   │   │   │   │       ├── README.md
│   │   │   │   │       ├── __init__.py
│   │   │   │   │       └── modules/
│   │   │   │   │           ├── __init__.py
│   │   │   │   │           ├── functional/
│   │   │   │   │           │   ├── __init__.py
│   │   │   │   │           │   ├── _csrc.py
│   │   │   │   │           │   ├── csrc/
│   │   │   │   │           │   │   ├── bn.h
│   │   │   │   │           │   │   ├── cuda/
│   │   │   │   │           │   │   │   ├── bn_cuda.cu
│   │   │   │   │           │   │   │   ├── common.h
│   │   │   │   │           │   │   │   └── ext_lib.h
│   │   │   │   │           │   │   └── ext_lib.cpp
│   │   │   │   │           │   └── syncbn.py
│   │   │   │   │           └── nn/
│   │   │   │   │               ├── __init__.py
│   │   │   │   │               └── syncbn.py
│   │   │   │   └── utils/
│   │   │   │       ├── __init__.py
│   │   │   │       ├── cython/
│   │   │   │       │   ├── __init__.py
│   │   │   │       │   ├── _get_dist_maps.pyx
│   │   │   │       │   ├── _get_dist_maps.pyxbld
│   │   │   │       │   └── dist_maps.py
│   │   │   │       ├── misc.py
│   │   │   │       └── vis.py
│   │   │   ├── fbrs_controller.py
│   │   │   ├── gui.py
│   │   │   ├── gui_utils.py
│   │   │   ├── interaction.py
│   │   │   ├── interactive_utils.py
│   │   │   ├── resource_manager.py
│   │   │   ├── s2m/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── _deeplab.py
│   │   │   │   ├── s2m_network.py
│   │   │   │   ├── s2m_resnet.py
│   │   │   │   └── utils.py
│   │   │   ├── s2m_controller.py
│   │   │   └── timer.py
│   │   ├── kv_memory_store.py
│   │   └── memory_manager.py
│   ├── interactive_demo.py
│   ├── merge_multi_scale.py
│   ├── merge_results.py
│   ├── model/
│   │   ├── __init__.py
│   │   ├── aggregate.py
│   │   ├── cbam.py
│   │   ├── group_modules.py
│   │   ├── losses.py
│   │   ├── memory_util.py
│   │   ├── modules.py
│   │   ├── network.py
│   │   ├── resnet.py
│   │   └── trainer.py
│   ├── requirements.txt
│   ├── scripts/
│   │   ├── __init__.py
│   │   ├── download_bl30k.py
│   │   ├── download_datasets.py
│   │   ├── download_models.sh
│   │   ├── download_models_demo.sh
│   │   ├── expand_long_vid.py
│   │   └── resize_youtube.py
│   ├── tracking.py
│   ├── train.py
│   └── util/
│       ├── __init__.py
│       ├── configuration.py
│       ├── davis_subset.txt
│       ├── image_saver.py
│       ├── load_subset.py
│       ├── log_integrator.py
│       ├── logger.py
│       ├── palette.py
│       ├── tensor_util.py
│       └── yv_subset.txt
├── merge_lora_weights_and_save_hf_model.py
├── model/
│   ├── VISA.py
│   ├── llava/
│   │   ├── __init__.py
│   │   ├── constants.py
│   │   ├── conversation.py
│   │   ├── mm_utils.py
│   │   ├── model/
│   │   │   ├── __init__.py
│   │   │   ├── apply_delta.py
│   │   │   ├── builder.py
│   │   │   ├── consolidate.py
│   │   │   ├── language_model/
│   │   │   │   ├── llava_llama.py
│   │   │   │   ├── llava_mpt.py
│   │   │   │   └── mpt/
│   │   │   │       ├── adapt_tokenizer.py
│   │   │   │       ├── attention.py
│   │   │   │       ├── blocks.py
│   │   │   │       ├── configuration_mpt.py
│   │   │   │       ├── custom_embedding.py
│   │   │   │       ├── flash_attn_triton.py
│   │   │   │       ├── hf_prefixlm_converter.py
│   │   │   │       ├── meta_init_context.py
│   │   │   │       ├── modeling_mpt.py
│   │   │   │       ├── norm.py
│   │   │   │       └── param_init_fns.py
│   │   │   ├── llava_arch.py
│   │   │   ├── make_delta.py
│   │   │   ├── multimodal_encoder/
│   │   │   │   ├── builder.py
│   │   │   │   └── clip_encoder.py
│   │   │   └── utils.py
│   │   ├── train/
│   │   │   ├── llama_flash_attn_monkey_patch.py
│   │   │   ├── llava_trainer.py
│   │   │   ├── train.py
│   │   │   └── train_mem.py
│   │   └── utils.py
│   ├── segment_anything/
│   │   ├── __init__.py
│   │   ├── automatic_mask_generator.py
│   │   ├── build_sam.py
│   │   ├── modeling/
│   │   │   ├── __init__.py
│   │   │   ├── common.py
│   │   │   ├── image_encoder.py
│   │   │   ├── mask_decoder.py
│   │   │   ├── prompt_encoder.py
│   │   │   ├── sam.py
│   │   │   └── transformer.py
│   │   ├── predictor.py
│   │   └── utils/
│   │       ├── __init__.py
│   │       ├── amg.py
│   │       ├── onnx.py
│   │       └── transforms.py
│   ├── tf/
│   │   └── modeling_outputs.py
│   └── univi/
│       ├── __init__.py
│       ├── config/
│       │   ├── __init__.py
│       │   ├── dataset_config.py
│       │   └── model_config.py
│       ├── constants.py
│       ├── conversation.py
│       ├── demo.py
│       ├── eval/
│       │   ├── evaluate/
│       │   │   ├── evaluate_benchmark_1_correctness.py
│       │   │   ├── evaluate_benchmark_2_detailed_orientation.py
│       │   │   ├── evaluate_benchmark_3_context.py
│       │   │   ├── evaluate_benchmark_4_temporal.py
│       │   │   ├── evaluate_benchmark_5_consistency.py
│       │   │   ├── evaluate_gpt_review_visual.py
│       │   │   ├── evaluate_science_qa.py
│       │   │   ├── evaluate_video_qa.py
│       │   │   └── summarize_gpt_review.py
│       │   ├── model_coco_vqa.py
│       │   ├── model_video_consistency.py
│       │   ├── model_video_general.py
│       │   ├── model_video_qa.py
│       │   ├── model_vqa.py
│       │   ├── model_vqa_scienceqa.py
│       │   ├── questions/
│       │   │   ├── coco2014_val_qa_eval/
│       │   │   │   ├── qa90_gpt4_answer.jsonl
│       │   │   │   └── qa90_questions.jsonl
│       │   │   ├── coco_pope/
│       │   │   │   ├── coco_pope_adversarial.jsonl
│       │   │   │   ├── coco_pope_popular.jsonl
│       │   │   │   └── coco_pope_random.jsonl
│       │   │   ├── scienceqa/
│       │   │   │   ├── pid_splits.json
│       │   │   │   ├── problems.json
│       │   │   │   └── test_QCM-LEA.json
│       │   │   └── video_qa/
│       │   │       ├── activitynet_a_list.json
│       │   │       ├── activitynet_qa.json
│       │   │       ├── consistency_qa.json
│       │   │       ├── generic_qa.json
│       │   │       ├── msrvtt_a_list.json
│       │   │       ├── msrvtt_qa.json
│       │   │       ├── msvd_a_list.json
│       │   │       ├── msvd_qa.json
│       │   │       ├── temporal_qa.json
│       │   │       ├── tgif_a_list.json
│       │   │       └── tgif_qa.json
│       │   └── table/
│       │       ├── caps_boxes_coco2014_val_80.jsonl
│       │       ├── model.jsonl
│       │       ├── question.jsonl
│       │       ├── reviewer.jsonl
│       │       └── rule.json
│       ├── mm_utils.py
│       ├── model/
│       │   ├── __init__.py
│       │   ├── apply_delta.py
│       │   ├── arch.py
│       │   ├── builder.py
│       │   ├── cluster.py
│       │   ├── consolidate.py
│       │   ├── dataloader.py
│       │   ├── language_model/
│       │   │   └── llama.py
│       │   ├── make_delta.py
│       │   └── multimodal_encoder/
│       │       ├── builder.py
│       │       ├── clip_encoder.py
│       │       ├── eva_encoder.py
│       │       ├── eva_vit.py
│       │       ├── processor.py
│       │       └── utils.py
│       ├── train/
│       │   ├── llama_flash_attn_monkey_patch.py
│       │   ├── train.py
│       │   ├── train_mem.py
│       │   └── trainer.py
│       └── utils.py
├── requirements.txt
├── scripts/
│   ├── train_13b.sh
│   ├── train_7b.sh
│   └── val_7b_video.sh
├── tools/
│   ├── eval_davis17.py
│   ├── eval_mevis.py
│   ├── eval_revos.py
│   ├── generate_foreground_mask.py
│   ├── metrics.py
│   ├── zip_mp_mevis.py
│   └── zip_mp_refytvos.py
├── train_ds.py
├── utils/
│   ├── ade20k_classes.json
│   ├── chatunivi_dataset.py
│   ├── cocostuff_classes.txt
│   ├── conversation.py
│   ├── d2_datasets/
│   │   ├── categories.py
│   │   ├── mevis_utils.py
│   │   ├── refytvos_utils.py
│   │   ├── refytvos_val_videos.py
│   │   └── ytvis_api/
│   │       ├── __init__.py
│   │       ├── ytvos.py
│   │       └── ytvoseval.py
│   ├── data_processing.py
│   ├── dataset.py
│   ├── dataset_config.py
│   ├── grefcoco.py
│   ├── grefer.py
│   ├── random_list.py
│   ├── reason_seg_dataset.py
│   ├── refer.py
│   ├── refer_seg_dataset.py
│   ├── rvos_dataset.py
│   ├── rvos_eval_dataset.py
│   ├── sem_seg_dataset.py
│   ├── utils.py
│   └── vqa_dataset.py
└── utils_llamavid/
    ├── llamavid_client.py
    └── llamavid_server.py