gitextract_qarvn3ca/ ├── .gitignore ├── .gitmodules ├── README.md ├── XMem/ │ ├── dataset/ │ │ ├── __init__.py │ │ ├── range_transform.py │ │ ├── reseed.py │ │ ├── static_dataset.py │ │ ├── tps.py │ │ ├── util.py │ │ └── vos_dataset.py │ ├── eval.py │ ├── eval_batch.py │ ├── generate_xmem_data_single.py │ ├── inference/ │ │ ├── __init__.py │ │ ├── data/ │ │ │ ├── __init__.py │ │ │ ├── mask_mapper.py │ │ │ ├── test_datasets.py │ │ │ └── video_reader.py │ │ ├── inference_core.py │ │ ├── interact/ │ │ │ ├── __init__.py │ │ │ ├── fbrs/ │ │ │ │ ├── LICENSE │ │ │ │ ├── __init__.py │ │ │ │ ├── controller.py │ │ │ │ ├── inference/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── clicker.py │ │ │ │ │ ├── evaluation.py │ │ │ │ │ ├── predictors/ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── base.py │ │ │ │ │ │ ├── brs.py │ │ │ │ │ │ ├── brs_functors.py │ │ │ │ │ │ └── brs_losses.py │ │ │ │ │ ├── transforms/ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── base.py │ │ │ │ │ │ ├── crops.py │ │ │ │ │ │ ├── flip.py │ │ │ │ │ │ ├── limit_longest_side.py │ │ │ │ │ │ └── zoom_in.py │ │ │ │ │ └── utils.py │ │ │ │ ├── model/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── initializer.py │ │ │ │ │ ├── is_deeplab_model.py │ │ │ │ │ ├── is_hrnet_model.py │ │ │ │ │ ├── losses.py │ │ │ │ │ ├── metrics.py │ │ │ │ │ ├── modeling/ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── basic_blocks.py │ │ │ │ │ │ ├── deeplab_v3.py │ │ │ │ │ │ ├── hrnet_ocr.py │ │ │ │ │ │ ├── ocr.py │ │ │ │ │ │ ├── resnet.py │ │ │ │ │ │ └── resnetv1b.py │ │ │ │ │ ├── ops.py │ │ │ │ │ └── syncbn/ │ │ │ │ │ ├── LICENSE │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── modules/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── functional/ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── _csrc.py │ │ │ │ │ │ ├── csrc/ │ │ │ │ │ │ │ ├── bn.h │ │ │ │ │ │ │ ├── cuda/ │ │ │ │ │ │ │ │ ├── bn_cuda.cu │ │ │ │ │ │ │ │ ├── common.h │ │ │ │ │ │ │ │ └── ext_lib.h │ │ │ │ │ │ │ └── ext_lib.cpp │ │ │ │ │ │ └── syncbn.py │ │ │ │ │ └── nn/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── syncbn.py │ │ │ │ └── utils/ │ │ │ │ ├── __init__.py │ │ │ │ ├── cython/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── _get_dist_maps.pyx │ │ │ │ │ ├── _get_dist_maps.pyxbld │ │ │ │ │ └── dist_maps.py │ │ │ │ ├── misc.py │ │ │ │ └── vis.py │ │ │ ├── fbrs_controller.py │ │ │ ├── gui.py │ │ │ ├── gui_utils.py │ │ │ ├── interaction.py │ │ │ ├── interactive_utils.py │ │ │ ├── resource_manager.py │ │ │ ├── s2m/ │ │ │ │ ├── __init__.py │ │ │ │ ├── _deeplab.py │ │ │ │ ├── s2m_network.py │ │ │ │ ├── s2m_resnet.py │ │ │ │ └── utils.py │ │ │ ├── s2m_controller.py │ │ │ └── timer.py │ │ ├── kv_memory_store.py │ │ └── memory_manager.py │ ├── interactive_demo.py │ ├── merge_multi_scale.py │ ├── merge_results.py │ ├── model/ │ │ ├── __init__.py │ │ ├── aggregate.py │ │ ├── cbam.py │ │ ├── group_modules.py │ │ ├── losses.py │ │ ├── memory_util.py │ │ ├── modules.py │ │ ├── network.py │ │ ├── resnet.py │ │ └── trainer.py │ ├── requirements.txt │ ├── scripts/ │ │ ├── __init__.py │ │ ├── download_bl30k.py │ │ ├── download_datasets.py │ │ ├── download_models.sh │ │ ├── download_models_demo.sh │ │ ├── expand_long_vid.py │ │ └── resize_youtube.py │ ├── tracking.py │ ├── train.py │ └── util/ │ ├── __init__.py │ ├── configuration.py │ ├── davis_subset.txt │ ├── image_saver.py │ ├── load_subset.py │ ├── log_integrator.py │ ├── logger.py │ ├── palette.py │ ├── tensor_util.py │ └── yv_subset.txt ├── merge_lora_weights_and_save_hf_model.py ├── model/ │ ├── VISA.py │ ├── llava/ │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── conversation.py │ │ ├── mm_utils.py │ │ ├── model/ │ │ │ ├── __init__.py │ │ │ ├── apply_delta.py │ │ │ ├── builder.py │ │ │ ├── consolidate.py │ │ │ ├── language_model/ │ │ │ │ ├── llava_llama.py │ │ │ │ ├── llava_mpt.py │ │ │ │ └── mpt/ │ │ │ │ ├── adapt_tokenizer.py │ │ │ │ ├── attention.py │ │ │ │ ├── blocks.py │ │ │ │ ├── configuration_mpt.py │ │ │ │ ├── custom_embedding.py │ │ │ │ ├── flash_attn_triton.py │ │ │ │ ├── hf_prefixlm_converter.py │ │ │ │ ├── meta_init_context.py │ │ │ │ ├── modeling_mpt.py │ │ │ │ ├── norm.py │ │ │ │ └── param_init_fns.py │ │ │ ├── llava_arch.py │ │ │ ├── make_delta.py │ │ │ ├── multimodal_encoder/ │ │ │ │ ├── builder.py │ │ │ │ └── clip_encoder.py │ │ │ └── utils.py │ │ ├── train/ │ │ │ ├── llama_flash_attn_monkey_patch.py │ │ │ ├── llava_trainer.py │ │ │ ├── train.py │ │ │ └── train_mem.py │ │ └── utils.py │ ├── segment_anything/ │ │ ├── __init__.py │ │ ├── automatic_mask_generator.py │ │ ├── build_sam.py │ │ ├── modeling/ │ │ │ ├── __init__.py │ │ │ ├── common.py │ │ │ ├── image_encoder.py │ │ │ ├── mask_decoder.py │ │ │ ├── prompt_encoder.py │ │ │ ├── sam.py │ │ │ └── transformer.py │ │ ├── predictor.py │ │ └── utils/ │ │ ├── __init__.py │ │ ├── amg.py │ │ ├── onnx.py │ │ └── transforms.py │ ├── tf/ │ │ └── modeling_outputs.py │ └── univi/ │ ├── __init__.py │ ├── config/ │ │ ├── __init__.py │ │ ├── dataset_config.py │ │ └── model_config.py │ ├── constants.py │ ├── conversation.py │ ├── demo.py │ ├── eval/ │ │ ├── evaluate/ │ │ │ ├── evaluate_benchmark_1_correctness.py │ │ │ ├── evaluate_benchmark_2_detailed_orientation.py │ │ │ ├── evaluate_benchmark_3_context.py │ │ │ ├── evaluate_benchmark_4_temporal.py │ │ │ ├── evaluate_benchmark_5_consistency.py │ │ │ ├── evaluate_gpt_review_visual.py │ │ │ ├── evaluate_science_qa.py │ │ │ ├── evaluate_video_qa.py │ │ │ └── summarize_gpt_review.py │ │ ├── model_coco_vqa.py │ │ ├── model_video_consistency.py │ │ ├── model_video_general.py │ │ ├── model_video_qa.py │ │ ├── model_vqa.py │ │ ├── model_vqa_scienceqa.py │ │ ├── questions/ │ │ │ ├── coco2014_val_qa_eval/ │ │ │ │ ├── qa90_gpt4_answer.jsonl │ │ │ │ └── qa90_questions.jsonl │ │ │ ├── coco_pope/ │ │ │ │ ├── coco_pope_adversarial.jsonl │ │ │ │ ├── coco_pope_popular.jsonl │ │ │ │ └── coco_pope_random.jsonl │ │ │ ├── scienceqa/ │ │ │ │ ├── pid_splits.json │ │ │ │ ├── problems.json │ │ │ │ └── test_QCM-LEA.json │ │ │ └── video_qa/ │ │ │ ├── activitynet_a_list.json │ │ │ ├── activitynet_qa.json │ │ │ ├── consistency_qa.json │ │ │ ├── generic_qa.json │ │ │ ├── msrvtt_a_list.json │ │ │ ├── msrvtt_qa.json │ │ │ ├── msvd_a_list.json │ │ │ ├── msvd_qa.json │ │ │ ├── temporal_qa.json │ │ │ ├── tgif_a_list.json │ │ │ └── tgif_qa.json │ │ └── table/ │ │ ├── caps_boxes_coco2014_val_80.jsonl │ │ ├── model.jsonl │ │ ├── question.jsonl │ │ ├── reviewer.jsonl │ │ └── rule.json │ ├── mm_utils.py │ ├── model/ │ │ ├── __init__.py │ │ ├── apply_delta.py │ │ ├── arch.py │ │ ├── builder.py │ │ ├── cluster.py │ │ ├── consolidate.py │ │ ├── dataloader.py │ │ ├── language_model/ │ │ │ └── llama.py │ │ ├── make_delta.py │ │ └── multimodal_encoder/ │ │ ├── builder.py │ │ ├── clip_encoder.py │ │ ├── eva_encoder.py │ │ ├── eva_vit.py │ │ ├── processor.py │ │ └── utils.py │ ├── train/ │ │ ├── llama_flash_attn_monkey_patch.py │ │ ├── train.py │ │ ├── train_mem.py │ │ └── trainer.py │ └── utils.py ├── requirements.txt ├── scripts/ │ ├── train_13b.sh │ ├── train_7b.sh │ └── val_7b_video.sh ├── tools/ │ ├── eval_davis17.py │ ├── eval_mevis.py │ ├── eval_revos.py │ ├── generate_foreground_mask.py │ ├── metrics.py │ ├── zip_mp_mevis.py │ └── zip_mp_refytvos.py ├── train_ds.py ├── utils/ │ ├── ade20k_classes.json │ ├── chatunivi_dataset.py │ ├── cocostuff_classes.txt │ ├── conversation.py │ ├── d2_datasets/ │ │ ├── categories.py │ │ ├── mevis_utils.py │ │ ├── refytvos_utils.py │ │ ├── refytvos_val_videos.py │ │ └── ytvis_api/ │ │ ├── __init__.py │ │ ├── ytvos.py │ │ └── ytvoseval.py │ ├── data_processing.py │ ├── dataset.py │ ├── dataset_config.py │ ├── grefcoco.py │ ├── grefer.py │ ├── random_list.py │ ├── reason_seg_dataset.py │ ├── refer.py │ ├── refer_seg_dataset.py │ ├── rvos_dataset.py │ ├── rvos_eval_dataset.py │ ├── sem_seg_dataset.py │ ├── utils.py │ └── vqa_dataset.py └── utils_llamavid/ ├── llamavid_client.py └── llamavid_server.py