gitextract_0z54odcq/

├── .dockerignore
├── .flake8
├── .gitattributes
├── .gitignore
├── ACKNOWLEDGEMENTS
├── CODE_OF_CONDUCT.md
├── CONTRIBUTING.md
├── LICENSE
├── Makefile
├── README.md
├── conftest.py
├── corenet/
│   ├── __init__.py
│   ├── __main__.py
│   ├── __version__.py
│   ├── cli/
│   │   ├── __init__.py
│   │   ├── entrypoints.py
│   │   ├── main.py
│   │   ├── main_benchmark.py
│   │   ├── main_conversion.py
│   │   ├── main_eval.py
│   │   ├── main_eval_llmadapters.py
│   │   └── main_train.py
│   ├── constants.py
│   ├── data/
│   │   ├── __init__.py
│   │   ├── collate_fns/
│   │   │   ├── __init__.py
│   │   │   ├── byteformer_collate_functions.py
│   │   │   └── collate_functions.py
│   │   ├── data_loaders.py
│   │   ├── datasets/
│   │   │   ├── __init__.py
│   │   │   ├── audio_classification/
│   │   │   │   ├── __init__.py
│   │   │   │   └── speech_commands_v2.py
│   │   │   ├── classification/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_image_classification_dataset.py
│   │   │   │   ├── base_imagenet_shift_dataset.py
│   │   │   │   ├── coco.py
│   │   │   │   ├── imagenet.py
│   │   │   │   ├── imagenet_a.py
│   │   │   │   ├── imagenet_r.py
│   │   │   │   ├── imagenet_sketch.py
│   │   │   │   ├── imagenet_synsets.py
│   │   │   │   ├── imagenet_v2.py
│   │   │   │   ├── places365.py
│   │   │   │   └── wordnet_tagged_classification.py
│   │   │   ├── dataset_base.py
│   │   │   ├── detection/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_detection.py
│   │   │   │   ├── coco_base.py
│   │   │   │   ├── coco_mask_rcnn.py
│   │   │   │   └── coco_ssd.py
│   │   │   ├── language_modeling/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_lm.py
│   │   │   │   ├── commonsense_170k.py
│   │   │   │   └── general_lm.py
│   │   │   ├── multi_modal_img_text/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_multi_modal_img_text.py
│   │   │   │   ├── flickr.py
│   │   │   │   ├── img_text_tar_dataset.py
│   │   │   │   └── zero_shot_image_classification/
│   │   │   │       ├── __init__.py
│   │   │   │       ├── base_zero_shot_image_classification.py
│   │   │   │       ├── imagenet.py
│   │   │   │       ├── imagenet_a.py
│   │   │   │       ├── imagenet_class_names.py
│   │   │   │       ├── imagenet_r.py
│   │   │   │       ├── imagenet_sketch.py
│   │   │   │       └── templates.py
│   │   │   ├── segmentation/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── ade20k.py
│   │   │   │   ├── base_segmentation.py
│   │   │   │   ├── coco_segmentation.py
│   │   │   │   ├── coco_stuff.py
│   │   │   │   └── pascal_voc.py
│   │   │   └── utils/
│   │   │       ├── __init__.py
│   │   │       ├── common.py
│   │   │       ├── text.py
│   │   │       └── video.py
│   │   ├── io/
│   │   │   ├── __init__.py
│   │   │   └── transfer_clients.py
│   │   ├── loader/
│   │   │   ├── __init__.py
│   │   │   └── dataloader.py
│   │   ├── sampler/
│   │   │   ├── __init__.py
│   │   │   ├── base_sampler.py
│   │   │   ├── batch_sampler.py
│   │   │   ├── chain_sampler.py
│   │   │   ├── multi_scale_sampler.py
│   │   │   ├── utils.py
│   │   │   ├── variable_batch_sampler.py
│   │   │   ├── video_batch_sampler.py
│   │   │   ├── video_clip_batch_sampler.py
│   │   │   └── video_variable_seq_sampler.py
│   │   ├── text_tokenizer/
│   │   │   ├── __init__.py
│   │   │   ├── base_tokenizer.py
│   │   │   ├── clip_tokenizer.py
│   │   │   └── sentencepiece_tokenizer.py
│   │   ├── transforms/
│   │   │   ├── __init__.py
│   │   │   ├── audio.py
│   │   │   ├── audio_aux/
│   │   │   │   ├── __init__.py
│   │   │   │   └── mfccs.py
│   │   │   ├── audio_bytes.py
│   │   │   ├── base_transforms.py
│   │   │   ├── common.py
│   │   │   ├── image_bytes.py
│   │   │   ├── image_pil.py
│   │   │   ├── image_torch.py
│   │   │   ├── utils.py
│   │   │   └── video.py
│   │   └── video_reader/
│   │       ├── __init__.py
│   │       ├── base_av_reader.py
│   │       ├── decord_reader.py
│   │       ├── ffmpeg_reader.py
│   │       ├── ffmpeg_utils.py
│   │       └── pyav_reader.py
│   ├── engine/
│   │   ├── __init__.py
│   │   ├── default_trainer.py
│   │   ├── detection_utils/
│   │   │   ├── __init__.py
│   │   │   └── coco_map.py
│   │   ├── eval_detection.py
│   │   ├── eval_segmentation.py
│   │   ├── evaluation_engine.py
│   │   ├── fsdp_trainer.py
│   │   ├── segmentation_utils/
│   │   │   ├── __init__.py
│   │   │   └── cityscapes_iou.py
│   │   └── utils.py
│   ├── loss_fn/
│   │   ├── __init__.py
│   │   ├── base_criteria.py
│   │   ├── classification/
│   │   │   ├── __init__.py
│   │   │   ├── base_classification_criteria.py
│   │   │   ├── binary_cross_entropy.py
│   │   │   ├── cross_entropy.py
│   │   │   └── focal_loss.py
│   │   ├── composite_loss.py
│   │   ├── detection/
│   │   │   ├── __init__.py
│   │   │   ├── base_detection_criteria.py
│   │   │   ├── mask_rcnn_loss.py
│   │   │   └── ssd_multibox_loss.py
│   │   ├── distillation/
│   │   │   ├── __init__.py
│   │   │   ├── base_distillation.py
│   │   │   ├── hard_distillation.py
│   │   │   └── soft_kl_distillation.py
│   │   ├── language_modeling/
│   │   │   ├── __init__.py
│   │   │   ├── base_lm.py
│   │   │   ├── cross_entropy.py
│   │   │   └── cross_entropy_for_kv_prediction.py
│   │   ├── multi_modal_img_text/
│   │   │   ├── __init__.py
│   │   │   ├── base_multi_modal_img_text_criteria.py
│   │   │   └── contrastive_loss_clip.py
│   │   ├── neural_augmentation.py
│   │   ├── segmentation/
│   │   │   ├── __init__.py
│   │   │   ├── base_segmentation_criteria.py
│   │   │   └── cross_entropy.py
│   │   └── utils/
│   │       ├── __init__.py
│   │       ├── build_helper.py
│   │       └── class_weighting.py
│   ├── metrics/
│   │   ├── __init__.py
│   │   ├── average_precision.py
│   │   ├── coco_map.py
│   │   ├── confusion_mat.py
│   │   ├── image_text_retrieval.py
│   │   ├── intersection_over_union.py
│   │   ├── metric_base.py
│   │   ├── metric_base_test.py
│   │   ├── misc.py
│   │   ├── multiclass_classification_pr.py
│   │   ├── probability_histograms.py
│   │   ├── psnr.py
│   │   ├── retrieval_cmc.py
│   │   ├── stats.py
│   │   ├── topk_accuracy.py
│   │   └── vqa_preset_score.py
│   ├── modeling/
│   │   ├── __init__.py
│   │   ├── anchor_generator/
│   │   │   ├── __init__.py
│   │   │   ├── base_anchor_generator.py
│   │   │   └── ssd_anchor_generator.py
│   │   ├── image_projection_layers/
│   │   │   ├── __init__.py
│   │   │   ├── attention_pool_2d.py
│   │   │   ├── base_image_projection.py
│   │   │   ├── global_pool_2d.py
│   │   │   └── simple_projection_head.py
│   │   ├── layers/
│   │   │   ├── __init__.py
│   │   │   ├── activation/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── gelu.py
│   │   │   │   ├── hard_sigmoid.py
│   │   │   │   ├── hard_swish.py
│   │   │   │   ├── leaky_relu.py
│   │   │   │   ├── prelu.py
│   │   │   │   ├── relu.py
│   │   │   │   ├── relu6.py
│   │   │   │   ├── sigmoid.py
│   │   │   │   ├── swish.py
│   │   │   │   └── tanh.py
│   │   │   ├── adaptive_pool.py
│   │   │   ├── base_layer.py
│   │   │   ├── conv_layer.py
│   │   │   ├── dropout.py
│   │   │   ├── embedding.py
│   │   │   ├── flash_multi_head_attention.py
│   │   │   ├── flatten.py
│   │   │   ├── global_pool.py
│   │   │   ├── identity.py
│   │   │   ├── linear_attention.py
│   │   │   ├── linear_layer.py
│   │   │   ├── multi_head_attention.py
│   │   │   ├── normalization/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── batch_norm.py
│   │   │   │   ├── group_norm.py
│   │   │   │   ├── instance_norm.py
│   │   │   │   ├── layer_norm.py
│   │   │   │   ├── rms_norm.py
│   │   │   │   └── sync_batch_norm.py
│   │   │   ├── normalization_layers.py
│   │   │   ├── pixel_shuffle.py
│   │   │   ├── pooling.py
│   │   │   ├── positional_embedding.py
│   │   │   ├── positional_encoding.py
│   │   │   ├── random_layers.py
│   │   │   ├── rotary_embeddings.py
│   │   │   ├── single_head_attention.py
│   │   │   ├── softmax.py
│   │   │   ├── stochastic_depth.py
│   │   │   ├── token_merging.py
│   │   │   └── upsample.py
│   │   ├── matcher_det/
│   │   │   ├── __init__.py
│   │   │   ├── base_matcher.py
│   │   │   └── ssd_matcher.py
│   │   ├── misc/
│   │   │   ├── __init__.py
│   │   │   ├── averaging_utils.py
│   │   │   ├── box_utils.py
│   │   │   ├── common.py
│   │   │   └── init_utils.py
│   │   ├── models/
│   │   │   ├── __init__.py
│   │   │   ├── audio_classification/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── audio_byteformer.py
│   │   │   │   └── base_audio_classification.py
│   │   │   ├── base_model.py
│   │   │   ├── classification/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_image_encoder.py
│   │   │   │   ├── byteformer.py
│   │   │   │   ├── config/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── byteformer.py
│   │   │   │   │   ├── efficientnet.py
│   │   │   │   │   ├── fastvit.py
│   │   │   │   │   ├── mobilenetv1.py
│   │   │   │   │   ├── mobilenetv2.py
│   │   │   │   │   ├── mobilenetv3.py
│   │   │   │   │   ├── mobileone.py
│   │   │   │   │   ├── mobilevit.py
│   │   │   │   │   ├── mobilevit_v2.py
│   │   │   │   │   ├── regnet.py
│   │   │   │   │   ├── resnet.py
│   │   │   │   │   ├── swin_transformer.py
│   │   │   │   │   └── vit.py
│   │   │   │   ├── efficientnet.py
│   │   │   │   ├── fastvit.py
│   │   │   │   ├── mobilenetv1.py
│   │   │   │   ├── mobilenetv2.py
│   │   │   │   ├── mobilenetv3.py
│   │   │   │   ├── mobileone.py
│   │   │   │   ├── mobilevit.py
│   │   │   │   ├── mobilevit_v2.py
│   │   │   │   ├── regnet.py
│   │   │   │   ├── resnet.py
│   │   │   │   ├── swin_transformer.py
│   │   │   │   └── vit.py
│   │   │   ├── detection/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_detection.py
│   │   │   │   ├── mask_rcnn.py
│   │   │   │   ├── ssd.py
│   │   │   │   └── utils/
│   │   │   │       ├── __init__.py
│   │   │   │       └── rcnn_utils.py
│   │   │   ├── fsdp_wrapper.py
│   │   │   ├── language_modeling/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_lm.py
│   │   │   │   ├── general_gpt.py
│   │   │   │   └── kv_prediction.py
│   │   │   ├── multi_modal_img_text/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_multi_modal_img_text.py
│   │   │   │   └── clip.py
│   │   │   ├── segmentation/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── base_seg.py
│   │   │   │   ├── enc_dec.py
│   │   │   │   └── heads/
│   │   │   │       ├── __init__.py
│   │   │   │       ├── base_seg_head.py
│   │   │   │       ├── deeplabv3.py
│   │   │   │       ├── pspnet.py
│   │   │   │       └── simple_seg_head.py
│   │   │   └── video_classification/
│   │   │       ├── __init__.py
│   │   │       └── base_video_encoder.py
│   │   ├── modules/
│   │   │   ├── __init__.py
│   │   │   ├── aspp_block.py
│   │   │   ├── base_module.py
│   │   │   ├── efficientnet.py
│   │   │   ├── fastvit.py
│   │   │   ├── feature_pyramid.py
│   │   │   ├── flash_transformer.py
│   │   │   ├── mobilenetv2.py
│   │   │   ├── mobileone_block.py
│   │   │   ├── mobilevit_block.py
│   │   │   ├── pspnet_module.py
│   │   │   ├── regnet_modules.py
│   │   │   ├── resnet_modules.py
│   │   │   ├── squeeze_excitation.py
│   │   │   ├── ssd_heads.py
│   │   │   ├── swin_transformer_block.py
│   │   │   ├── transformer.py
│   │   │   └── windowed_transformer.py
│   │   ├── neural_augmentor/
│   │   │   ├── __init__.py
│   │   │   ├── neural_aug.py
│   │   │   └── utils/
│   │   │       ├── __init__.py
│   │   │       └── neural_aug_utils.py
│   │   └── text_encoders/
│   │       ├── __init__.py
│   │       ├── base_text_encoder.py
│   │       └── transformer.py
│   ├── optims/
│   │   ├── __init__.py
│   │   ├── adam.py
│   │   ├── adamw.py
│   │   ├── base_optim.py
│   │   ├── scheduler/
│   │   │   ├── __init__.py
│   │   │   ├── base_scheduler.py
│   │   │   ├── cosine.py
│   │   │   ├── cyclic.py
│   │   │   ├── fixed.py
│   │   │   ├── multi_step.py
│   │   │   └── polynomial.py
│   │   └── sgd.py
│   ├── options/
│   │   ├── __init__.py
│   │   ├── errors.py
│   │   ├── opts.py
│   │   ├── parse_args.py
│   │   └── utils.py
│   ├── third_party/
│   │   ├── __init__.py
│   │   ├── data/
│   │   │   ├── __init__.py
│   │   │   └── text_tokenizer/
│   │   │       ├── __init__.py
│   │   │       └── openai_clip_tokenizer.py
│   │   └── modeling/
│   │       ├── __init__.py
│   │       ├── lora.py
│   │       └── ssd_utils.py
│   ├── train_eval_pipelines/
│   │   ├── __init__.py
│   │   ├── base.py
│   │   ├── default_train_eval.py
│   │   └── fsdp_train_eval.py
│   └── utils/
│       ├── __init__.py
│       ├── activation_checkpointing_wrapper.py
│       ├── check.py
│       ├── checkpoint_utils.py
│       ├── color_map.py
│       ├── common_utils.py
│       ├── context_managers.py
│       ├── ddp_utils.py
│       ├── dict_utils.py
│       ├── download_utils.py
│       ├── file_logger.py
│       ├── fpdb.py
│       ├── hf_adapter_utils.py
│       ├── import_utils.py
│       ├── io_utils.py
│       ├── logger.py
│       ├── math_utils.py
│       ├── object_utils.py
│       ├── object_utils_test.py
│       ├── pytorch_to_coreml.py
│       ├── registry.py
│       ├── registry_test.py
│       ├── resources.py
│       ├── retry_utils.py
│       ├── tensor_utils.py
│       └── visualization_utils.py
├── mlx_examples/
│   ├── clip/
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── clip.py
│   │   ├── image_processor.py
│   │   ├── main_clip_to_mlx.py
│   │   ├── main_test_clip_mlx.py
│   │   ├── model.py
│   │   ├── requirements.txt
│   │   ├── results/
│   │   │   └── .gitkeep
│   │   └── tokenizer.py
│   ├── open_elm/
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── convert.py
│   │   ├── inference.py
│   │   └── open_elm.py
│   └── requirements.txt
├── projects/
│   ├── byteformer/
│   │   ├── README.md
│   │   ├── imagenet_file_encodings/
│   │   │   ├── encoding_type=PNG.yaml
│   │   │   ├── encoding_type=TIFF.yaml
│   │   │   ├── encoding_type=fCHW.yaml
│   │   │   └── encoding_type=fHWC.yaml
│   │   ├── imagenet_jpeg_q100/
│   │   │   ├── conv_kernel_size=16.yaml
│   │   │   ├── conv_kernel_size=32.yaml
│   │   │   └── conv_kernel_size=8.yaml
│   │   ├── imagenet_jpeg_q60/
│   │   │   ├── conv_kernel_size=16,window_sizes=[128].yaml
│   │   │   ├── conv_kernel_size=16,window_sizes=[32].yaml
│   │   │   ├── conv_kernel_size=32,window_sizes=[128].yaml
│   │   │   ├── conv_kernel_size=32,window_sizes=[32].yaml
│   │   │   ├── conv_kernel_size=4,window_sizes=[128].yaml
│   │   │   ├── conv_kernel_size=4,window_sizes=[32].yaml
│   │   │   ├── conv_kernel_size=8,window_sizes=[128].yaml
│   │   │   └── conv_kernel_size=8,window_sizes=[32].yaml
│   │   ├── imagenet_jpeg_shuffle_bytes/
│   │   │   ├── mode=cyclic_half_length.yaml
│   │   │   ├── mode=random_shuffle.yaml
│   │   │   ├── mode=reverse.yaml
│   │   │   ├── mode=stride.yaml
│   │   │   └── mode=window_shuffle.yaml
│   │   ├── imagenet_obfuscation/
│   │   │   ├── width_range=[-10,10].yaml
│   │   │   ├── width_range=[-20,20].yaml
│   │   │   ├── width_range=[-5,5].yaml
│   │   │   └── width_range=[0,0].yaml
│   │   ├── imagenet_privacy_preserving_camera/
│   │   │   ├── keep_frac=0.03,conv_kernel_size=4.yaml
│   │   │   ├── keep_frac=0.05,conv_kernel_size=4.yaml
│   │   │   ├── keep_frac=0.1,conv_kernel_size=4.yaml
│   │   │   ├── keep_frac=0.25,conv_kernel_size=8.yaml
│   │   │   ├── keep_frac=0.5,conv_kernel_size=16.yaml
│   │   │   └── keep_frac=0.75,conv_kernel_size=32.yaml
│   │   ├── speech_commands_mp3/
│   │   │   ├── conv_kernel_size=4,window_size=[128].yaml
│   │   │   ├── conv_kernel_size=4,window_size=[32].yaml
│   │   │   ├── conv_kernel_size=8,window_size=[128].yaml
│   │   │   └── conv_kernel_size=8,window_size=[32].yaml
│   │   └── speech_commands_wav/
│   │       ├── encoding_dtype=float32,conv_kernel_size=16.yaml
│   │       ├── encoding_dtype=float32,conv_kernel_size=32.yaml
│   │       ├── encoding_dtype=int16,conv_kernel_size=16.yaml
│   │       ├── encoding_dtype=int16,conv_kernel_size=32.yaml
│   │       ├── encoding_dtype=int16,conv_kernel_size=8.yaml
│   │       ├── encoding_dtype=int32,conv_kernel_size=16.yaml
│   │       ├── encoding_dtype=int32,conv_kernel_size=32.yaml
│   │       ├── encoding_dtype=uint8,conv_kernel_size=16.yaml
│   │       ├── encoding_dtype=uint8,conv_kernel_size=32.yaml
│   │       ├── encoding_dtype=uint8,conv_kernel_size=4.yaml
│   │       └── encoding_dtype=uint8,conv_kernel_size=8.yaml
│   ├── catlip/
│   │   ├── README-multi-label-object-classification.md
│   │   ├── README-object-detection.md
│   │   ├── README-pretraining.md
│   │   ├── README-semantic-segmentation.md
│   │   ├── README-single-label-object-classification.md
│   │   ├── README.md
│   │   ├── image_classification/
│   │   │   ├── imagenet/
│   │   │   │   ├── vit_base.yaml
│   │   │   │   ├── vit_base_512x512.yaml
│   │   │   │   ├── vit_huge.yaml
│   │   │   │   ├── vit_huge_512x512.yaml
│   │   │   │   ├── vit_large.yaml
│   │   │   │   └── vit_large_512x512.yaml
│   │   │   └── places365/
│   │   │       ├── vit_base.yaml
│   │   │       ├── vit_base_512x512.yaml
│   │   │       ├── vit_huge.yaml
│   │   │       ├── vit_huge_512x512.yaml
│   │   │       ├── vit_large.yaml
│   │   │       └── vit_large_512x512.yaml
│   │   ├── multi_label_image_classification/
│   │   │   ├── vit_base.yaml
│   │   │   └── vit_large.yaml
│   │   ├── object_detection/
│   │   │   ├── maskrcnn_vit_base.yaml
│   │   │   ├── maskrcnn_vit_huge.yaml
│   │   │   └── maskrcnn_vit_large.yaml
│   │   ├── pretraining/
│   │   │   ├── vit_base.yaml
│   │   │   ├── vit_huge.yaml
│   │   │   └── vit_large.yaml
│   │   └── semantic_segmentation/
│   │       ├── deeplabv3_vit_base.yaml
│   │       ├── deeplabv3_vit_huge.yaml
│   │       └── deeplabv3_vit_large.yaml
│   ├── clip/
│   │   ├── README.md
│   │   └── clip_vit_base.yaml
│   ├── fastvit/
│   │   ├── README.md
│   │   └── classification/
│   │       └── fastvit_t8_in1k.yaml
│   ├── kv-prediction/
│   │   ├── README.md
│   │   ├── openelm/
│   │   │   ├── openelm_1_1B_0_25.yaml
│   │   │   ├── openelm_1_1B_0_50.yaml
│   │   │   ├── openelm_1_1B_0_75.yaml
│   │   │   ├── openelm_1_1B_kvp_c_270M.yaml
│   │   │   ├── openelm_1_1B_kvp_c_450M.yaml
│   │   │   ├── openelm_1_1B_kvp_lp_0_25.yaml
│   │   │   ├── openelm_1_1B_kvp_lp_0_50.yaml
│   │   │   ├── openelm_1_1B_kvp_lp_0_75.yaml
│   │   │   ├── openelm_3B_kvp_c_1_1B.yaml
│   │   │   ├── openelm_3B_kvp_c_270M.yaml
│   │   │   ├── openelm_3B_kvp_c_450M.yaml
│   │   │   ├── openelm_3B_kvp_lp_0_25.yaml
│   │   │   ├── openelm_3B_kvp_lp_0_50.yaml
│   │   │   ├── openelm_3B_kvp_lp_0_75.yaml
│   │   │   ├── openelm_base_3B_aux_0_25l.yaml
│   │   │   ├── openelm_base_3B_aux_0_50l.yaml
│   │   │   └── openelm_base_3B_aux_0_75l.yaml
│   │   └── triviaqa-template.yaml
│   ├── mobilenet_v1/
│   │   ├── README.md
│   │   └── classification/
│   │       └── mobilenetv1_1.0_in1k.yaml
│   ├── mobilenet_v2/
│   │   ├── README.md
│   │   ├── classification/
│   │   │   └── mobilenetv2_1.0_in1k.yaml
│   │   └── segmentation/
│   │       └── deeplabv3_ade20k.yaml
│   ├── mobilenet_v3/
│   │   ├── README.md
│   │   └── classification/
│   │       └── mobilenetv3_large_in1k.yaml
│   ├── mobileone/
│   │   ├── README.md
│   │   └── classification/
│   │       └── mobileone_s1_in1k.yaml
│   ├── mobilevit/
│   │   └── README.md
│   ├── mobilevit_v2/
│   │   ├── README.md
│   │   ├── classification/
│   │   │   ├── mobilevitv2_2.0_ft_384x384.yaml
│   │   │   └── mobilevitv2_2.0_in1k.yaml
│   │   ├── detection/
│   │   │   └── mobilevitv2_2.0_ssd_coco.yaml
│   │   └── segmentation/
│   │       └── deeplabv3_mobilevitv2_1.0_ade20k.yaml
│   ├── openelm/
│   │   ├── README-instruct.md
│   │   ├── README-peft.md
│   │   ├── README-pretraining.md
│   │   ├── README.md
│   │   ├── instruction_tuning/
│   │   │   └── openelm-instruct.yaml
│   │   ├── peft_configs/
│   │   │   ├── openelm_lora_1_1B.yaml
│   │   │   ├── openelm_lora_270M.yaml
│   │   │   ├── openelm_lora_270M_eval.yaml
│   │   │   ├── openelm_lora_3B.yaml
│   │   │   └── openelm_lora_450M.yaml
│   │   └── pretraining_configs/
│   │       ├── openelm_1_1B.yaml
│   │       ├── openelm_270M.yaml
│   │       ├── openelm_3B.yaml
│   │       └── openelm_450M.yaml
│   ├── range_augment/
│   │   ├── README-classification.md
│   │   ├── README-clip.md
│   │   ├── README-distillation.md
│   │   ├── README-object-detection.md
│   │   ├── README-segmentation.md
│   │   ├── README.md
│   │   ├── classification/
│   │   │   ├── efficientnet_b0.yaml
│   │   │   ├── efficientnet_b1.yaml
│   │   │   ├── efficientnet_b2.yaml
│   │   │   ├── efficientnet_b3.yaml
│   │   │   ├── mobilenet_v1.yaml
│   │   │   ├── mobilenet_v2.yaml
│   │   │   ├── mobilenet_v3.yaml
│   │   │   ├── mobilevit_v1.yaml
│   │   │   ├── regnety_16gf.yaml
│   │   │   ├── resnet_101.yaml
│   │   │   ├── resnet_50.yaml
│   │   │   ├── se_resnet_50.yaml
│   │   │   ├── swin_transformer_small.yaml
│   │   │   └── swin_transformer_tiny.yaml
│   │   ├── clip/
│   │   │   ├── clip_vit_base.yaml
│   │   │   └── clip_vit_huge.yaml
│   │   ├── clip_finetune_imagenet/
│   │   │   ├── clip_vit_base.yaml
│   │   │   └── clip_vit_huge.yaml
│   │   ├── detection/
│   │   │   ├── maskrcnn_efficientnet_b3.yaml
│   │   │   ├── maskrcnn_mobilenet_v1.yaml
│   │   │   ├── maskrcnn_mobilenet_v2.yaml
│   │   │   ├── maskrcnn_mobilenet_v3.yaml
│   │   │   ├── maskrcnn_mobilevit.yaml
│   │   │   ├── maskrcnn_resnet_101.yaml
│   │   │   └── maskrcnn_resnet_50.yaml
│   │   ├── distillation/
│   │   │   ├── teacher_resnet101_student_mobilenet_v1.yaml
│   │   │   ├── teacher_resnet101_student_mobilenet_v2.yaml
│   │   │   ├── teacher_resnet101_student_mobilenet_v3.yaml
│   │   │   └── teacher_resnet101_student_mobilevit.yaml
│   │   └── segmentation/
│   │       ├── ade20k/
│   │       │   ├── deeplabv3_efficientnet_b3.yaml
│   │       │   ├── deeplabv3_mobilenet_v1.yaml
│   │       │   ├── deeplabv3_mobilenet_v2.yaml
│   │       │   ├── deeplabv3_mobilenet_v3.yaml
│   │       │   ├── deeplabv3_mobilevit.yaml
│   │       │   ├── deeplabv3_resnet_101.yaml
│   │       │   └── deeplabv3_resnet_50.yaml
│   │       └── pascal_voc/
│   │           ├── deeplabv3_efficientnet_b3.yaml
│   │           ├── deeplabv3_mobilenet_v1.yaml
│   │           ├── deeplabv3_mobilenet_v2.yaml
│   │           ├── deeplabv3_mobilenet_v3.yaml
│   │           ├── deeplabv3_resnet_101.yaml
│   │           └── deeplabv3_resnet_50.yaml
│   ├── resnet/
│   │   ├── README.md
│   │   ├── classification/
│   │   │   └── resnet50_in1k.yaml
│   │   └── detection/
│   │       └── ssd_resnet50_coco.yaml
│   └── vit/
│       ├── README.md
│       └── classification/
│           └── vit_base_in1k.yaml
├── pyproject.toml
├── requirements-optional.txt
├── requirements.txt
├── setup.py
├── tests/
│   ├── __init__.py
│   ├── configs.py
│   ├── data/
│   │   ├── __init__.py
│   │   ├── coco/
│   │   │   └── annotations/
│   │   │       ├── instances_train2017.json
│   │   │       └── instances_val2017.json
│   │   ├── collate_fns/
│   │   │   ├── __init__.py
│   │   │   ├── test_byteformer_collate_fn.py
│   │   │   └── test_collate_functions.py
│   │   ├── datasets/
│   │   │   ├── __init__.py
│   │   │   ├── audio_classification/
│   │   │   │   ├── __init__.py
│   │   │   │   └── test_speech_commands_v2.py
│   │   │   ├── classification/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── dummy_configs/
│   │   │   │   │   ├── coco.yaml
│   │   │   │   │   ├── image_classification_dataset.yaml
│   │   │   │   │   ├── imagenet.yaml
│   │   │   │   │   ├── imagenet_a.yaml
│   │   │   │   │   ├── imagenet_r.yaml
│   │   │   │   │   ├── imagenet_sketch.yaml
│   │   │   │   │   └── wordnet_tagged_classification.yaml
│   │   │   │   ├── mock_coco.py
│   │   │   │   ├── mock_imagenet.py
│   │   │   │   ├── mock_wordnet_tagged_classification.py
│   │   │   │   ├── test_base_image_classification_dataset.py
│   │   │   │   ├── test_mock_coco.py
│   │   │   │   ├── test_mock_imagenet.py
│   │   │   │   └── test_wordnet_tagged_classification.py
│   │   │   ├── detection/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── mock_coco_mask_rcnn.py
│   │   │   │   └── mock_coco_ssd.py
│   │   │   ├── language_modeling/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── dummy_commonsense_170k.yaml
│   │   │   │   ├── dummy_lm_dataset.yaml
│   │   │   │   ├── mock_general_lm.py
│   │   │   │   ├── test_commonsense_170k.py
│   │   │   │   └── test_general_lm.py
│   │   │   ├── multi_modal_img_text/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── dummy_img_text_tar_dataset.yaml
│   │   │   │   ├── mock_img_text_tar_dataset.py
│   │   │   │   ├── test_img_text_tar_dataset.py
│   │   │   │   └── zero_shot_image_classification/
│   │   │   │       ├── __init__.py
│   │   │   │       ├── dummy_configs/
│   │   │   │       │   ├── imagenet.yaml
│   │   │   │       │   ├── imagenet_a.yaml
│   │   │   │       │   ├── imagenet_r.yaml
│   │   │   │       │   └── imagenet_sketch.yaml
│   │   │   │       ├── mock_imagenet.py
│   │   │   │       └── test_mock_imagenet.py
│   │   │   ├── segmentation/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── dummy_ade20k_config.yaml
│   │   │   │   ├── dummy_cocostuff_config.yaml
│   │   │   │   ├── mock_ade20k.py
│   │   │   │   ├── mock_coco_stuff.py
│   │   │   │   ├── test_mock_ade20k.py
│   │   │   │   └── test_mock_coco_stuff.py
│   │   │   ├── test_dataset_base.py
│   │   │   ├── test_image_pil.py
│   │   │   └── utils/
│   │   │       ├── __init__.py
│   │   │       ├── test_common.py
│   │   │       └── test_video.py
│   │   ├── io/
│   │   │   ├── __init__.py
│   │   │   └── test_transfer_clients.py
│   │   ├── samplers/
│   │   │   ├── __init__.py
│   │   │   ├── test_batch_sampler_config.yaml
│   │   │   ├── test_chain_sampler.py
│   │   │   ├── test_chain_sampler_config.yaml
│   │   │   ├── test_data_samplers.py
│   │   │   ├── test_multi_scale_sampler_config.yaml
│   │   │   ├── test_variable_batch_sampler_config.yaml
│   │   │   └── test_video_clip_batch_sampler_config.yaml
│   │   ├── text_tokenizer/
│   │   │   ├── __init__.py
│   │   │   ├── test_clip_tokenizer.py
│   │   │   └── test_openai_clip_tokenizer.py
│   │   └── video_reader/
│   │       ├── __init__.py
│   │       ├── test_av_reader.py
│   │       └── test_ffmpeg_utils.py
│   ├── engine/
│   │   ├── __init__.py
│   │   ├── dummy_configs/
│   │   │   ├── ade20k_segmentation/
│   │   │   │   └── deeplabv3_mobilenetv2.yaml
│   │   │   ├── coco_detection/
│   │   │   │   ├── resnet_mask_rcnn.yaml
│   │   │   │   └── resnet_ssd.yaml
│   │   │   ├── image_text_clip/
│   │   │   │   └── clip_vit.yaml
│   │   │   ├── imagenet_classification/
│   │   │   │   ├── efficientnet_b0.yaml
│   │   │   │   ├── mobilevit.yaml
│   │   │   │   └── mobilevit_v2.yaml
│   │   │   └── language_modeling_gpt/
│   │   │       └── gpt.yaml
│   │   └── test_training_engine.py
│   ├── loss_fns/
│   │   ├── __init__.py
│   │   ├── language_modeling/
│   │   │   ├── __init__.py
│   │   │   ├── test_cross_entropy.py
│   │   │   └── test_cross_entropy_for_kv_prediction.py
│   │   ├── test_class_weighting.py
│   │   ├── test_classification_loss.py
│   │   ├── test_composite_loss.py
│   │   ├── test_contrastive_loss.py
│   │   ├── test_detection_loss.py
│   │   ├── test_focal_loss.py
│   │   ├── test_neural_aug.py
│   │   ├── test_neural_aug_compatibility.py
│   │   └── test_segmentation_loss.py
│   ├── metrics/
│   │   ├── __init__.py
│   │   ├── base.py
│   │   ├── test_coco_map.py
│   │   ├── test_image_text_retrieval_metrics.py
│   │   ├── test_iou.py
│   │   ├── test_misc.py
│   │   ├── test_multiclass_classification_pr.py
│   │   ├── test_probability_histogram.py
│   │   ├── test_psnr.py
│   │   ├── test_retrieval_cmc_metrics.py
│   │   ├── test_topk_accuracy.py
│   │   └── test_vqa_preset_score_metrics.py
│   ├── misc/
│   │   ├── __init__.py
│   │   ├── dummy_clip_config.yaml
│   │   ├── dummy_linear_probe_config.yaml
│   │   └── test_common.py
│   ├── modeling/
│   │   ├── __init__.py
│   │   ├── layers/
│   │   │   ├── __init__.py
│   │   │   ├── normalization_layers/
│   │   │   │   ├── __init__.py
│   │   │   │   └── test_rms_norm.py
│   │   │   ├── test_conv_layer.py
│   │   │   ├── test_multi_head_attn.py
│   │   │   ├── test_pos_embeddings.py
│   │   │   ├── test_rotary_embeddings.py
│   │   │   └── test_token_merging.py
│   │   ├── models/
│   │   │   ├── __init__.py
│   │   │   ├── audio_classification/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── test_base_audio_classification.py
│   │   │   │   └── test_byteformer.py
│   │   │   ├── classification/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── config/
│   │   │   │   │   ├── __init__.py
│   │   │   │   │   ├── test_byteformer.py
│   │   │   │   │   └── vit_config.yaml
│   │   │   │   ├── test_byteformer.py
│   │   │   │   └── test_vit.py
│   │   │   ├── language_modeling/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── config/
│   │   │   │   │   ├── gpt_config.yaml
│   │   │   │   │   └── kv_prediction_config.yaml
│   │   │   │   ├── test_general_gpt.py
│   │   │   │   └── test_kv_prediction.py
│   │   │   ├── test_activation_checkpointing_wrapper.py
│   │   │   ├── test_lora.py
│   │   │   └── test_neural_aug_utils.py
│   │   ├── modules/
│   │   │   ├── __init__.py
│   │   │   ├── test_transformer.py
│   │   │   └── test_windowed_transformer.py
│   │   └── test_model.py
│   ├── optims/
│   │   ├── __init__.py
│   │   └── scheduler/
│   │       ├── __init__.py
│   │       └── test_scheduler.py
│   ├── options/
│   │   ├── __init__.py
│   │   ├── test_parse_args.py
│   │   └── test_utils.py
│   ├── test_conventions.py
│   ├── test_utils.py
│   ├── transforms/
│   │   ├── __init__.py
│   │   ├── test_audio.py
│   │   ├── test_audio_bytes.py
│   │   ├── test_image.py
│   │   ├── test_image_bytes.py
│   │   └── test_video.py
│   └── utils/
│       ├── __init__.py
│       ├── test_check.py
│       ├── test_common_utils.py
│       ├── test_dict_utils.py
│       ├── test_download_utils.py
│       ├── test_file_logger.py
│       └── test_import_utils.py
├── tools/
│   ├── __init__.py
│   └── converter_coco_stuff.py
├── tox.ini
└── tutorials/
    ├── clip.ipynb
    ├── guide_slurm_and_multi_node_training.md
    ├── object_detection.ipynb
    ├── semantic_segmentation.ipynb
    └── train_a_new_model_on_a_new_dataset_from_scratch.ipynb