gitextract_0ef7ckct/ ├── .gitignore ├── DATASET.md ├── LICENSE ├── README.md ├── configs/ │ ├── det/ │ │ ├── _base_/ │ │ │ ├── datasets/ │ │ │ │ ├── cityscapes_panoptic.py │ │ │ │ ├── cityscapes_step.py │ │ │ │ ├── cityscapes_vps_clips.py │ │ │ │ ├── cityscapes_vps_clips_trainval.py │ │ │ │ ├── coco_instance.py │ │ │ │ ├── coco_panoptic.py │ │ │ │ ├── coco_panoptic_instance_annotations.py │ │ │ │ ├── kitti_step_dvps.py │ │ │ │ ├── kitti_step_vps.py │ │ │ │ ├── kitti_step_vps_trainval.py │ │ │ │ ├── mapillary_panoptic.py │ │ │ │ └── vipseg_dvps.py │ │ │ ├── default_runtime.py │ │ │ ├── models/ │ │ │ │ ├── knet_citystep_s3_r50_fpn.py │ │ │ │ ├── knet_kitti_step_s3_r50_fpn.py │ │ │ │ ├── knet_s3_r50_deformable_fpn.py │ │ │ │ ├── knet_s3_r50_fpn.py │ │ │ │ ├── knet_s3_r50_fpn_panoptic.py │ │ │ │ ├── knet_vipseg_s3_r50_fpn.py │ │ │ │ └── video_knet_s3_r50_fpn_panoptic.py │ │ │ └── schedules/ │ │ │ ├── schedule_10e.py │ │ │ └── schedule_1x.py │ │ ├── coco/ │ │ │ ├── knet_s3_r50_deformable_fpn_ms-3x_coco.py │ │ │ ├── knet_s3_r50_fpn_ms-3x_coco-panoptic.py │ │ │ ├── knet_s3_r50_fpn_ms-3x_coco.py │ │ │ └── knet_s3_swin-b_deformable_fpn_ms-3x_coco.py │ │ ├── common/ │ │ │ ├── lsj_coco_panoptic_50e.py │ │ │ ├── mstrain_3x_coco_instance.py │ │ │ ├── mstrain_3x_coco_panoptic_inst_anno.py │ │ │ ├── mstrain_3x_coco_panoptic_inst_anno_detr_aug.py │ │ │ └── mstrain_64e_city_panoptic.py │ │ ├── knet_cityscapes_step/ │ │ │ ├── knet_s3_r50_fpn.py │ │ │ ├── knet_s3_swin_b_fpn.py │ │ │ └── knet_s3_swin_l_fpn.py │ │ ├── video_knet_kitti_step/ │ │ │ ├── video_knet_s3_r50_rpn_1x_kitti_step_sigmoid_stride2_mask_embed_link_ffn_joint_train.py │ │ │ ├── video_knet_s3_r50_rpn_1x_kitti_step_sigmoid_stride2_mask_embed_link_ffn_joint_train_8e.py │ │ │ ├── video_knet_s3_swinb_rpn_1x_kitti_step_sigmoid_stride2_mask_embed_link_ffn_joint_update.py │ │ │ ├── video_knet_s3_swinl_rpn_1x_kitti_step_sigmoid_stride2_mask_embed_link_ffn_joint_update.py │ │ │ └── video_knet_s3_swinl_rpn_1x_kitti_step_sigmoid_stride2_mask_embed_link_ffn_update_conv_short_track_fc.py │ │ └── video_knet_vipseg/ │ │ ├── video_knet_s3_r50_rpn_vipseg_mask_embed_link_ffn_joint_train.py │ │ └── video_knet_s3_swin_b_rpn_vipseg_mask_embed_link_ffn_joint_train_8e.py │ └── video_knet_vis/ │ ├── _base_/ │ │ ├── datasets/ │ │ │ ├── coco_instance.py │ │ │ └── youtubevis_2019.py │ │ ├── default_runtime.py │ │ ├── models/ │ │ │ ├── knet_track_r50.py │ │ │ └── knet_track_r50_deformablefpn.py │ │ └── schedules/ │ │ ├── schedule_0.75x.py │ │ ├── schedule_1x.py │ │ └── schedule_8e.py │ ├── common/ │ │ └── mstrain_3x_coco_instance.py │ └── video_knet_vis/ │ ├── knet_track_r50_1x_youtubevis.py │ ├── knet_track_r50_deformable_fpn_1x_youtubevis.py │ ├── knet_track_swinb_1x_youtubevis_8e.py │ └── knet_track_swinb_deformable_1x_youtubevis.py ├── external/ │ ├── cityscape_panoptic.py │ ├── cityscapes_step.py │ ├── cityscapes_vps.py │ ├── coco_panoptic.py │ ├── dataset/ │ │ ├── dvps_pipelines/ │ │ │ ├── __init__.py │ │ │ ├── loading.py │ │ │ ├── transforms.py │ │ │ └── tricks.py │ │ ├── forecasting_pipelines/ │ │ │ ├── __init__.py │ │ │ ├── loading.py │ │ │ └── transforms.py │ │ ├── mIoU.py │ │ └── pipelines/ │ │ ├── __init__.py │ │ ├── formatting.py │ │ ├── loading.py │ │ ├── test_time_aug.py │ │ └── transforms.py │ ├── evalhooks.py │ ├── ext/ │ │ ├── mask.py │ │ └── ytvos.py │ ├── fcn_mask_head.py │ ├── kitti_step_dvps.py │ ├── panoptic_fpn.py │ ├── panoptic_head.py │ ├── semantic_seg_head.py │ ├── semkitti_dvps.py │ ├── test.py │ ├── train.py │ ├── utils.py │ └── vipseg_dvps.py ├── knet/ │ ├── __init__.py │ ├── cross_entropy_loss.py │ ├── det/ │ │ ├── dice_loss.py │ │ ├── kernel_head.py │ │ ├── kernel_iter_head.py │ │ ├── kernel_update_head.py │ │ ├── knet.py │ │ ├── mask_hungarian_assigner.py │ │ ├── mask_pseudo_sampler.py │ │ ├── msdeformattn_decoder.py │ │ ├── semantic_fpn_wrapper.py │ │ └── utils.py │ ├── kernel_updator.py │ └── video/ │ ├── __init__.py │ ├── dice_loss.py │ ├── kernel_head.py │ ├── kernel_iter_head.py │ ├── kernel_update_head.py │ ├── knet.py │ ├── knet_quansi_dense.py │ ├── knet_quansi_dense_embed_fc.py │ ├── knet_quansi_dense_embed_fc_joint_train.py │ ├── knet_quansi_dense_embed_fc_toy_exp.py │ ├── knet_quansi_dense_roi_gt_box.py │ ├── knet_quansi_dense_roi_gt_box_joint_train.py │ ├── knet_track_head.py │ ├── knet_track_head_roi_align.py │ ├── knet_uni_track.py │ ├── mask_hungarian_assigner.py │ ├── mask_pseudo_sampler.py │ ├── qdtrack/ │ │ ├── builder.py │ │ ├── losses/ │ │ │ ├── __init__.py │ │ │ ├── l2_loss.py │ │ │ └── multipos_cross_entropy_loss.py │ │ ├── track/ │ │ │ ├── __init__.py │ │ │ ├── similarity.py │ │ │ └── transforms.py │ │ └── trackers/ │ │ ├── __init__.py │ │ ├── quasi_dense_embed_tracker.py │ │ └── tao_tracker.py │ ├── track_heads.py │ ├── tracker.py │ └── util.py ├── knet_vis/ │ ├── __init__.py │ ├── det/ │ │ ├── __init__.py │ │ ├── kernel_head.py │ │ ├── kernel_iter_head.py │ │ ├── kernel_update_head.py │ │ ├── knet.py │ │ ├── mask_hungarian_assigner.py │ │ ├── mask_pseudo_sampler.py │ │ ├── semantic_fpn_wrapper.py │ │ └── utils.py │ ├── kernel_updator.py │ └── tracker/ │ ├── __init__.py │ ├── kernel_frame_head.py │ ├── kernel_frame_iter_head.py │ ├── kernel_head.py │ ├── kernel_iter_head.py │ ├── kernel_update_head.py │ ├── mask_hungarian_assigner.py │ ├── positional_encoding.py │ ├── semantic_fpn_wrapper3D.py │ └── track.py ├── mmtrack/ │ ├── datasets/ │ │ ├── coco_video_dataset.py │ │ ├── parsers/ │ │ │ ├── __init__.py │ │ │ └── coco_video_parser.py │ │ └── youtube_vis_dataset.py │ ├── pipelines/ │ │ ├── __init__.py │ │ ├── formatting.py │ │ ├── loading.py │ │ ├── test_time_aug.py │ │ └── transforms.py │ └── transform.py ├── scripts/ │ ├── kitti_step_prepare.py │ └── visualizer.py ├── swin/ │ ├── DetectRS.py │ ├── ckpt_convert.py │ ├── mix_transformer.py │ ├── swin_checkpoint.py │ ├── swin_transformer.py │ ├── swin_transformer_rfp.py │ └── transformer.py ├── tools/ │ ├── dataset/ │ │ ├── cityscapes_instance_idmap.py │ │ └── youtubevis2coco.py │ ├── dist_step_test.sh │ ├── dist_test.sh │ ├── dist_train.sh │ ├── dist_train_new.sh │ ├── dist_vps_test.sh │ ├── docker.sh │ ├── eval_dstq.py │ ├── eval_dstq_step.py │ ├── eval_dstq_vipseg.py │ ├── eval_dvpq_step.py │ ├── eval_dvpq_vipseg.py │ ├── flops_counter.py │ ├── get_flops.py │ ├── inference_kitti_step.sh │ ├── slurm_test.sh │ ├── slurm_test_dvps.sh │ ├── slurm_test_step.sh │ ├── slurm_test_vis.sh │ ├── slurm_test_vps.sh │ ├── slurm_train.sh │ ├── test.py │ ├── test_dvps.py │ ├── test_step.py │ ├── test_vps.py │ ├── train.py │ ├── utils/ │ │ ├── DSTQ.py │ │ ├── STQ.py │ │ └── cityscapesvps_eval.py │ └── visualization.py ├── tools_vis/ │ ├── apis/ │ │ ├── __init__.py │ │ └── test.py │ ├── dist_test_whole_video.sh │ ├── docker.sh │ ├── slurm_test_vis.sh │ ├── test.py │ └── test_whole_video.py └── unitrack/ ├── __init__.py ├── basetrack.py ├── box.py ├── core/ │ ├── __init__.py │ ├── association/ │ │ ├── __init__.py │ │ └── matching.py │ ├── motion/ │ │ └── kalman_filter.py │ └── propagation/ │ ├── __init__.py │ ├── propagate_box.py │ ├── propagate_mask.py │ └── propagate_pose.py ├── mask.py ├── mask_with_train_embs.py ├── model/ │ ├── __init__.py │ ├── functional.py │ ├── hrnet.py │ ├── model.py │ ├── random_feat_generator.py │ └── resnet.py ├── multitracker.py └── utils/ ├── __init__.py ├── box.py ├── io.py ├── log.py ├── mask.py ├── meter.py ├── palette.py └── visualize.py