gitextract_0z54odcq/ ├── .dockerignore ├── .flake8 ├── .gitattributes ├── .gitignore ├── ACKNOWLEDGEMENTS ├── CODE_OF_CONDUCT.md ├── CONTRIBUTING.md ├── LICENSE ├── Makefile ├── README.md ├── conftest.py ├── corenet/ │ ├── __init__.py │ ├── __main__.py │ ├── __version__.py │ ├── cli/ │ │ ├── __init__.py │ │ ├── entrypoints.py │ │ ├── main.py │ │ ├── main_benchmark.py │ │ ├── main_conversion.py │ │ ├── main_eval.py │ │ ├── main_eval_llmadapters.py │ │ └── main_train.py │ ├── constants.py │ ├── data/ │ │ ├── __init__.py │ │ ├── collate_fns/ │ │ │ ├── __init__.py │ │ │ ├── byteformer_collate_functions.py │ │ │ └── collate_functions.py │ │ ├── data_loaders.py │ │ ├── datasets/ │ │ │ ├── __init__.py │ │ │ ├── audio_classification/ │ │ │ │ ├── __init__.py │ │ │ │ └── speech_commands_v2.py │ │ │ ├── classification/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_image_classification_dataset.py │ │ │ │ ├── base_imagenet_shift_dataset.py │ │ │ │ ├── coco.py │ │ │ │ ├── imagenet.py │ │ │ │ ├── imagenet_a.py │ │ │ │ ├── imagenet_r.py │ │ │ │ ├── imagenet_sketch.py │ │ │ │ ├── imagenet_synsets.py │ │ │ │ ├── imagenet_v2.py │ │ │ │ ├── places365.py │ │ │ │ └── wordnet_tagged_classification.py │ │ │ ├── dataset_base.py │ │ │ ├── detection/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_detection.py │ │ │ │ ├── coco_base.py │ │ │ │ ├── coco_mask_rcnn.py │ │ │ │ └── coco_ssd.py │ │ │ ├── language_modeling/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_lm.py │ │ │ │ ├── commonsense_170k.py │ │ │ │ └── general_lm.py │ │ │ ├── multi_modal_img_text/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_multi_modal_img_text.py │ │ │ │ ├── flickr.py │ │ │ │ ├── img_text_tar_dataset.py │ │ │ │ └── zero_shot_image_classification/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_zero_shot_image_classification.py │ │ │ │ ├── imagenet.py │ │ │ │ ├── imagenet_a.py │ │ │ │ ├── imagenet_class_names.py │ │ │ │ ├── imagenet_r.py │ │ │ │ ├── imagenet_sketch.py │ │ │ │ └── templates.py │ │ │ ├── segmentation/ │ │ │ │ ├── __init__.py │ │ │ │ ├── ade20k.py │ │ │ │ ├── base_segmentation.py │ │ │ │ ├── coco_segmentation.py │ │ │ │ ├── coco_stuff.py │ │ │ │ └── pascal_voc.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ ├── common.py │ │ │ ├── text.py │ │ │ └── video.py │ │ ├── io/ │ │ │ ├── __init__.py │ │ │ └── transfer_clients.py │ │ ├── loader/ │ │ │ ├── __init__.py │ │ │ └── dataloader.py │ │ ├── sampler/ │ │ │ ├── __init__.py │ │ │ ├── base_sampler.py │ │ │ ├── batch_sampler.py │ │ │ ├── chain_sampler.py │ │ │ ├── multi_scale_sampler.py │ │ │ ├── utils.py │ │ │ ├── variable_batch_sampler.py │ │ │ ├── video_batch_sampler.py │ │ │ ├── video_clip_batch_sampler.py │ │ │ └── video_variable_seq_sampler.py │ │ ├── text_tokenizer/ │ │ │ ├── __init__.py │ │ │ ├── base_tokenizer.py │ │ │ ├── clip_tokenizer.py │ │ │ └── sentencepiece_tokenizer.py │ │ ├── transforms/ │ │ │ ├── __init__.py │ │ │ ├── audio.py │ │ │ ├── audio_aux/ │ │ │ │ ├── __init__.py │ │ │ │ └── mfccs.py │ │ │ ├── audio_bytes.py │ │ │ ├── base_transforms.py │ │ │ ├── common.py │ │ │ ├── image_bytes.py │ │ │ ├── image_pil.py │ │ │ ├── image_torch.py │ │ │ ├── utils.py │ │ │ └── video.py │ │ └── video_reader/ │ │ ├── __init__.py │ │ ├── base_av_reader.py │ │ ├── decord_reader.py │ │ ├── ffmpeg_reader.py │ │ ├── ffmpeg_utils.py │ │ └── pyav_reader.py │ ├── engine/ │ │ ├── __init__.py │ │ ├── default_trainer.py │ │ ├── detection_utils/ │ │ │ ├── __init__.py │ │ │ └── coco_map.py │ │ ├── eval_detection.py │ │ ├── eval_segmentation.py │ │ ├── evaluation_engine.py │ │ ├── fsdp_trainer.py │ │ ├── segmentation_utils/ │ │ │ ├── __init__.py │ │ │ └── cityscapes_iou.py │ │ └── utils.py │ ├── loss_fn/ │ │ ├── __init__.py │ │ ├── base_criteria.py │ │ ├── classification/ │ │ │ ├── __init__.py │ │ │ ├── base_classification_criteria.py │ │ │ ├── binary_cross_entropy.py │ │ │ ├── cross_entropy.py │ │ │ └── focal_loss.py │ │ ├── composite_loss.py │ │ ├── detection/ │ │ │ ├── __init__.py │ │ │ ├── base_detection_criteria.py │ │ │ ├── mask_rcnn_loss.py │ │ │ └── ssd_multibox_loss.py │ │ ├── distillation/ │ │ │ ├── __init__.py │ │ │ ├── base_distillation.py │ │ │ ├── hard_distillation.py │ │ │ └── soft_kl_distillation.py │ │ ├── language_modeling/ │ │ │ ├── __init__.py │ │ │ ├── base_lm.py │ │ │ ├── cross_entropy.py │ │ │ └── cross_entropy_for_kv_prediction.py │ │ ├── multi_modal_img_text/ │ │ │ ├── __init__.py │ │ │ ├── base_multi_modal_img_text_criteria.py │ │ │ └── contrastive_loss_clip.py │ │ ├── neural_augmentation.py │ │ ├── segmentation/ │ │ │ ├── __init__.py │ │ │ ├── base_segmentation_criteria.py │ │ │ └── cross_entropy.py │ │ └── utils/ │ │ ├── __init__.py │ │ ├── build_helper.py │ │ └── class_weighting.py │ ├── metrics/ │ │ ├── __init__.py │ │ ├── average_precision.py │ │ ├── coco_map.py │ │ ├── confusion_mat.py │ │ ├── image_text_retrieval.py │ │ ├── intersection_over_union.py │ │ ├── metric_base.py │ │ ├── metric_base_test.py │ │ ├── misc.py │ │ ├── multiclass_classification_pr.py │ │ ├── probability_histograms.py │ │ ├── psnr.py │ │ ├── retrieval_cmc.py │ │ ├── stats.py │ │ ├── topk_accuracy.py │ │ └── vqa_preset_score.py │ ├── modeling/ │ │ ├── __init__.py │ │ ├── anchor_generator/ │ │ │ ├── __init__.py │ │ │ ├── base_anchor_generator.py │ │ │ └── ssd_anchor_generator.py │ │ ├── image_projection_layers/ │ │ │ ├── __init__.py │ │ │ ├── attention_pool_2d.py │ │ │ ├── base_image_projection.py │ │ │ ├── global_pool_2d.py │ │ │ └── simple_projection_head.py │ │ ├── layers/ │ │ │ ├── __init__.py │ │ │ ├── activation/ │ │ │ │ ├── __init__.py │ │ │ │ ├── gelu.py │ │ │ │ ├── hard_sigmoid.py │ │ │ │ ├── hard_swish.py │ │ │ │ ├── leaky_relu.py │ │ │ │ ├── prelu.py │ │ │ │ ├── relu.py │ │ │ │ ├── relu6.py │ │ │ │ ├── sigmoid.py │ │ │ │ ├── swish.py │ │ │ │ └── tanh.py │ │ │ ├── adaptive_pool.py │ │ │ ├── base_layer.py │ │ │ ├── conv_layer.py │ │ │ ├── dropout.py │ │ │ ├── embedding.py │ │ │ ├── flash_multi_head_attention.py │ │ │ ├── flatten.py │ │ │ ├── global_pool.py │ │ │ ├── identity.py │ │ │ ├── linear_attention.py │ │ │ ├── linear_layer.py │ │ │ ├── multi_head_attention.py │ │ │ ├── normalization/ │ │ │ │ ├── __init__.py │ │ │ │ ├── batch_norm.py │ │ │ │ ├── group_norm.py │ │ │ │ ├── instance_norm.py │ │ │ │ ├── layer_norm.py │ │ │ │ ├── rms_norm.py │ │ │ │ └── sync_batch_norm.py │ │ │ ├── normalization_layers.py │ │ │ ├── pixel_shuffle.py │ │ │ ├── pooling.py │ │ │ ├── positional_embedding.py │ │ │ ├── positional_encoding.py │ │ │ ├── random_layers.py │ │ │ ├── rotary_embeddings.py │ │ │ ├── single_head_attention.py │ │ │ ├── softmax.py │ │ │ ├── stochastic_depth.py │ │ │ ├── token_merging.py │ │ │ └── upsample.py │ │ ├── matcher_det/ │ │ │ ├── __init__.py │ │ │ ├── base_matcher.py │ │ │ └── ssd_matcher.py │ │ ├── misc/ │ │ │ ├── __init__.py │ │ │ ├── averaging_utils.py │ │ │ ├── box_utils.py │ │ │ ├── common.py │ │ │ └── init_utils.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── audio_classification/ │ │ │ │ ├── __init__.py │ │ │ │ ├── audio_byteformer.py │ │ │ │ └── base_audio_classification.py │ │ │ ├── base_model.py │ │ │ ├── classification/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_image_encoder.py │ │ │ │ ├── byteformer.py │ │ │ │ ├── config/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── byteformer.py │ │ │ │ │ ├── efficientnet.py │ │ │ │ │ ├── fastvit.py │ │ │ │ │ ├── mobilenetv1.py │ │ │ │ │ ├── mobilenetv2.py │ │ │ │ │ ├── mobilenetv3.py │ │ │ │ │ ├── mobileone.py │ │ │ │ │ ├── mobilevit.py │ │ │ │ │ ├── mobilevit_v2.py │ │ │ │ │ ├── regnet.py │ │ │ │ │ ├── resnet.py │ │ │ │ │ ├── swin_transformer.py │ │ │ │ │ └── vit.py │ │ │ │ ├── efficientnet.py │ │ │ │ ├── fastvit.py │ │ │ │ ├── mobilenetv1.py │ │ │ │ ├── mobilenetv2.py │ │ │ │ ├── mobilenetv3.py │ │ │ │ ├── mobileone.py │ │ │ │ ├── mobilevit.py │ │ │ │ ├── mobilevit_v2.py │ │ │ │ ├── regnet.py │ │ │ │ ├── resnet.py │ │ │ │ ├── swin_transformer.py │ │ │ │ └── vit.py │ │ │ ├── detection/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_detection.py │ │ │ │ ├── mask_rcnn.py │ │ │ │ ├── ssd.py │ │ │ │ └── utils/ │ │ │ │ ├── __init__.py │ │ │ │ └── rcnn_utils.py │ │ │ ├── fsdp_wrapper.py │ │ │ ├── language_modeling/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_lm.py │ │ │ │ ├── general_gpt.py │ │ │ │ └── kv_prediction.py │ │ │ ├── multi_modal_img_text/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_multi_modal_img_text.py │ │ │ │ └── clip.py │ │ │ ├── segmentation/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_seg.py │ │ │ │ ├── enc_dec.py │ │ │ │ └── heads/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base_seg_head.py │ │ │ │ ├── deeplabv3.py │ │ │ │ ├── pspnet.py │ │ │ │ └── simple_seg_head.py │ │ │ └── video_classification/ │ │ │ ├── __init__.py │ │ │ └── base_video_encoder.py │ │ ├── modules/ │ │ │ ├── __init__.py │ │ │ ├── aspp_block.py │ │ │ ├── base_module.py │ │ │ ├── efficientnet.py │ │ │ ├── fastvit.py │ │ │ ├── feature_pyramid.py │ │ │ ├── flash_transformer.py │ │ │ ├── mobilenetv2.py │ │ │ ├── mobileone_block.py │ │ │ ├── mobilevit_block.py │ │ │ ├── pspnet_module.py │ │ │ ├── regnet_modules.py │ │ │ ├── resnet_modules.py │ │ │ ├── squeeze_excitation.py │ │ │ ├── ssd_heads.py │ │ │ ├── swin_transformer_block.py │ │ │ ├── transformer.py │ │ │ └── windowed_transformer.py │ │ ├── neural_augmentor/ │ │ │ ├── __init__.py │ │ │ ├── neural_aug.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ └── neural_aug_utils.py │ │ └── text_encoders/ │ │ ├── __init__.py │ │ ├── base_text_encoder.py │ │ └── transformer.py │ ├── optims/ │ │ ├── __init__.py │ │ ├── adam.py │ │ ├── adamw.py │ │ ├── base_optim.py │ │ ├── scheduler/ │ │ │ ├── __init__.py │ │ │ ├── base_scheduler.py │ │ │ ├── cosine.py │ │ │ ├── cyclic.py │ │ │ ├── fixed.py │ │ │ ├── multi_step.py │ │ │ └── polynomial.py │ │ └── sgd.py │ ├── options/ │ │ ├── __init__.py │ │ ├── errors.py │ │ ├── opts.py │ │ ├── parse_args.py │ │ └── utils.py │ ├── third_party/ │ │ ├── __init__.py │ │ ├── data/ │ │ │ ├── __init__.py │ │ │ └── text_tokenizer/ │ │ │ ├── __init__.py │ │ │ └── openai_clip_tokenizer.py │ │ └── modeling/ │ │ ├── __init__.py │ │ ├── lora.py │ │ └── ssd_utils.py │ ├── train_eval_pipelines/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── default_train_eval.py │ │ └── fsdp_train_eval.py │ └── utils/ │ ├── __init__.py │ ├── activation_checkpointing_wrapper.py │ ├── check.py │ ├── checkpoint_utils.py │ ├── color_map.py │ ├── common_utils.py │ ├── context_managers.py │ ├── ddp_utils.py │ ├── dict_utils.py │ ├── download_utils.py │ ├── file_logger.py │ ├── fpdb.py │ ├── hf_adapter_utils.py │ ├── import_utils.py │ ├── io_utils.py │ ├── logger.py │ ├── math_utils.py │ ├── object_utils.py │ ├── object_utils_test.py │ ├── pytorch_to_coreml.py │ ├── registry.py │ ├── registry_test.py │ ├── resources.py │ ├── retry_utils.py │ ├── tensor_utils.py │ └── visualization_utils.py ├── mlx_examples/ │ ├── clip/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── clip.py │ │ ├── image_processor.py │ │ ├── main_clip_to_mlx.py │ │ ├── main_test_clip_mlx.py │ │ ├── model.py │ │ ├── requirements.txt │ │ ├── results/ │ │ │ └── .gitkeep │ │ └── tokenizer.py │ ├── open_elm/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── convert.py │ │ ├── inference.py │ │ └── open_elm.py │ └── requirements.txt ├── projects/ │ ├── byteformer/ │ │ ├── README.md │ │ ├── imagenet_file_encodings/ │ │ │ ├── encoding_type=PNG.yaml │ │ │ ├── encoding_type=TIFF.yaml │ │ │ ├── encoding_type=fCHW.yaml │ │ │ └── encoding_type=fHWC.yaml │ │ ├── imagenet_jpeg_q100/ │ │ │ ├── conv_kernel_size=16.yaml │ │ │ ├── conv_kernel_size=32.yaml │ │ │ └── conv_kernel_size=8.yaml │ │ ├── imagenet_jpeg_q60/ │ │ │ ├── conv_kernel_size=16,window_sizes=[128].yaml │ │ │ ├── conv_kernel_size=16,window_sizes=[32].yaml │ │ │ ├── conv_kernel_size=32,window_sizes=[128].yaml │ │ │ ├── conv_kernel_size=32,window_sizes=[32].yaml │ │ │ ├── conv_kernel_size=4,window_sizes=[128].yaml │ │ │ ├── conv_kernel_size=4,window_sizes=[32].yaml │ │ │ ├── conv_kernel_size=8,window_sizes=[128].yaml │ │ │ └── conv_kernel_size=8,window_sizes=[32].yaml │ │ ├── imagenet_jpeg_shuffle_bytes/ │ │ │ ├── mode=cyclic_half_length.yaml │ │ │ ├── mode=random_shuffle.yaml │ │ │ ├── mode=reverse.yaml │ │ │ ├── mode=stride.yaml │ │ │ └── mode=window_shuffle.yaml │ │ ├── imagenet_obfuscation/ │ │ │ ├── width_range=[-10,10].yaml │ │ │ ├── width_range=[-20,20].yaml │ │ │ ├── width_range=[-5,5].yaml │ │ │ └── width_range=[0,0].yaml │ │ ├── imagenet_privacy_preserving_camera/ │ │ │ ├── keep_frac=0.03,conv_kernel_size=4.yaml │ │ │ ├── keep_frac=0.05,conv_kernel_size=4.yaml │ │ │ ├── keep_frac=0.1,conv_kernel_size=4.yaml │ │ │ ├── keep_frac=0.25,conv_kernel_size=8.yaml │ │ │ ├── keep_frac=0.5,conv_kernel_size=16.yaml │ │ │ └── keep_frac=0.75,conv_kernel_size=32.yaml │ │ ├── speech_commands_mp3/ │ │ │ ├── conv_kernel_size=4,window_size=[128].yaml │ │ │ ├── conv_kernel_size=4,window_size=[32].yaml │ │ │ ├── conv_kernel_size=8,window_size=[128].yaml │ │ │ └── conv_kernel_size=8,window_size=[32].yaml │ │ └── speech_commands_wav/ │ │ ├── encoding_dtype=float32,conv_kernel_size=16.yaml │ │ ├── encoding_dtype=float32,conv_kernel_size=32.yaml │ │ ├── encoding_dtype=int16,conv_kernel_size=16.yaml │ │ ├── encoding_dtype=int16,conv_kernel_size=32.yaml │ │ ├── encoding_dtype=int16,conv_kernel_size=8.yaml │ │ ├── encoding_dtype=int32,conv_kernel_size=16.yaml │ │ ├── encoding_dtype=int32,conv_kernel_size=32.yaml │ │ ├── encoding_dtype=uint8,conv_kernel_size=16.yaml │ │ ├── encoding_dtype=uint8,conv_kernel_size=32.yaml │ │ ├── encoding_dtype=uint8,conv_kernel_size=4.yaml │ │ └── encoding_dtype=uint8,conv_kernel_size=8.yaml │ ├── catlip/ │ │ ├── README-multi-label-object-classification.md │ │ ├── README-object-detection.md │ │ ├── README-pretraining.md │ │ ├── README-semantic-segmentation.md │ │ ├── README-single-label-object-classification.md │ │ ├── README.md │ │ ├── image_classification/ │ │ │ ├── imagenet/ │ │ │ │ ├── vit_base.yaml │ │ │ │ ├── vit_base_512x512.yaml │ │ │ │ ├── vit_huge.yaml │ │ │ │ ├── vit_huge_512x512.yaml │ │ │ │ ├── vit_large.yaml │ │ │ │ └── vit_large_512x512.yaml │ │ │ └── places365/ │ │ │ ├── vit_base.yaml │ │ │ ├── vit_base_512x512.yaml │ │ │ ├── vit_huge.yaml │ │ │ ├── vit_huge_512x512.yaml │ │ │ ├── vit_large.yaml │ │ │ └── vit_large_512x512.yaml │ │ ├── multi_label_image_classification/ │ │ │ ├── vit_base.yaml │ │ │ └── vit_large.yaml │ │ ├── object_detection/ │ │ │ ├── maskrcnn_vit_base.yaml │ │ │ ├── maskrcnn_vit_huge.yaml │ │ │ └── maskrcnn_vit_large.yaml │ │ ├── pretraining/ │ │ │ ├── vit_base.yaml │ │ │ ├── vit_huge.yaml │ │ │ └── vit_large.yaml │ │ └── semantic_segmentation/ │ │ ├── deeplabv3_vit_base.yaml │ │ ├── deeplabv3_vit_huge.yaml │ │ └── deeplabv3_vit_large.yaml │ ├── clip/ │ │ ├── README.md │ │ └── clip_vit_base.yaml │ ├── fastvit/ │ │ ├── README.md │ │ └── classification/ │ │ └── fastvit_t8_in1k.yaml │ ├── kv-prediction/ │ │ ├── README.md │ │ ├── openelm/ │ │ │ ├── openelm_1_1B_0_25.yaml │ │ │ ├── openelm_1_1B_0_50.yaml │ │ │ ├── openelm_1_1B_0_75.yaml │ │ │ ├── openelm_1_1B_kvp_c_270M.yaml │ │ │ ├── openelm_1_1B_kvp_c_450M.yaml │ │ │ ├── openelm_1_1B_kvp_lp_0_25.yaml │ │ │ ├── openelm_1_1B_kvp_lp_0_50.yaml │ │ │ ├── openelm_1_1B_kvp_lp_0_75.yaml │ │ │ ├── openelm_3B_kvp_c_1_1B.yaml │ │ │ ├── openelm_3B_kvp_c_270M.yaml │ │ │ ├── openelm_3B_kvp_c_450M.yaml │ │ │ ├── openelm_3B_kvp_lp_0_25.yaml │ │ │ ├── openelm_3B_kvp_lp_0_50.yaml │ │ │ ├── openelm_3B_kvp_lp_0_75.yaml │ │ │ ├── openelm_base_3B_aux_0_25l.yaml │ │ │ ├── openelm_base_3B_aux_0_50l.yaml │ │ │ └── openelm_base_3B_aux_0_75l.yaml │ │ └── triviaqa-template.yaml │ ├── mobilenet_v1/ │ │ ├── README.md │ │ └── classification/ │ │ └── mobilenetv1_1.0_in1k.yaml │ ├── mobilenet_v2/ │ │ ├── README.md │ │ ├── classification/ │ │ │ └── mobilenetv2_1.0_in1k.yaml │ │ └── segmentation/ │ │ └── deeplabv3_ade20k.yaml │ ├── mobilenet_v3/ │ │ ├── README.md │ │ └── classification/ │ │ └── mobilenetv3_large_in1k.yaml │ ├── mobileone/ │ │ ├── README.md │ │ └── classification/ │ │ └── mobileone_s1_in1k.yaml │ ├── mobilevit/ │ │ └── README.md │ ├── mobilevit_v2/ │ │ ├── README.md │ │ ├── classification/ │ │ │ ├── mobilevitv2_2.0_ft_384x384.yaml │ │ │ └── mobilevitv2_2.0_in1k.yaml │ │ ├── detection/ │ │ │ └── mobilevitv2_2.0_ssd_coco.yaml │ │ └── segmentation/ │ │ └── deeplabv3_mobilevitv2_1.0_ade20k.yaml │ ├── openelm/ │ │ ├── README-instruct.md │ │ ├── README-peft.md │ │ ├── README-pretraining.md │ │ ├── README.md │ │ ├── instruction_tuning/ │ │ │ └── openelm-instruct.yaml │ │ ├── peft_configs/ │ │ │ ├── openelm_lora_1_1B.yaml │ │ │ ├── openelm_lora_270M.yaml │ │ │ ├── openelm_lora_270M_eval.yaml │ │ │ ├── openelm_lora_3B.yaml │ │ │ └── openelm_lora_450M.yaml │ │ └── pretraining_configs/ │ │ ├── openelm_1_1B.yaml │ │ ├── openelm_270M.yaml │ │ ├── openelm_3B.yaml │ │ └── openelm_450M.yaml │ ├── range_augment/ │ │ ├── README-classification.md │ │ ├── README-clip.md │ │ ├── README-distillation.md │ │ ├── README-object-detection.md │ │ ├── README-segmentation.md │ │ ├── README.md │ │ ├── classification/ │ │ │ ├── efficientnet_b0.yaml │ │ │ ├── efficientnet_b1.yaml │ │ │ ├── efficientnet_b2.yaml │ │ │ ├── efficientnet_b3.yaml │ │ │ ├── mobilenet_v1.yaml │ │ │ ├── mobilenet_v2.yaml │ │ │ ├── mobilenet_v3.yaml │ │ │ ├── mobilevit_v1.yaml │ │ │ ├── regnety_16gf.yaml │ │ │ ├── resnet_101.yaml │ │ │ ├── resnet_50.yaml │ │ │ ├── se_resnet_50.yaml │ │ │ ├── swin_transformer_small.yaml │ │ │ └── swin_transformer_tiny.yaml │ │ ├── clip/ │ │ │ ├── clip_vit_base.yaml │ │ │ └── clip_vit_huge.yaml │ │ ├── clip_finetune_imagenet/ │ │ │ ├── clip_vit_base.yaml │ │ │ └── clip_vit_huge.yaml │ │ ├── detection/ │ │ │ ├── maskrcnn_efficientnet_b3.yaml │ │ │ ├── maskrcnn_mobilenet_v1.yaml │ │ │ ├── maskrcnn_mobilenet_v2.yaml │ │ │ ├── maskrcnn_mobilenet_v3.yaml │ │ │ ├── maskrcnn_mobilevit.yaml │ │ │ ├── maskrcnn_resnet_101.yaml │ │ │ └── maskrcnn_resnet_50.yaml │ │ ├── distillation/ │ │ │ ├── teacher_resnet101_student_mobilenet_v1.yaml │ │ │ ├── teacher_resnet101_student_mobilenet_v2.yaml │ │ │ ├── teacher_resnet101_student_mobilenet_v3.yaml │ │ │ └── teacher_resnet101_student_mobilevit.yaml │ │ └── segmentation/ │ │ ├── ade20k/ │ │ │ ├── deeplabv3_efficientnet_b3.yaml │ │ │ ├── deeplabv3_mobilenet_v1.yaml │ │ │ ├── deeplabv3_mobilenet_v2.yaml │ │ │ ├── deeplabv3_mobilenet_v3.yaml │ │ │ ├── deeplabv3_mobilevit.yaml │ │ │ ├── deeplabv3_resnet_101.yaml │ │ │ └── deeplabv3_resnet_50.yaml │ │ └── pascal_voc/ │ │ ├── deeplabv3_efficientnet_b3.yaml │ │ ├── deeplabv3_mobilenet_v1.yaml │ │ ├── deeplabv3_mobilenet_v2.yaml │ │ ├── deeplabv3_mobilenet_v3.yaml │ │ ├── deeplabv3_resnet_101.yaml │ │ └── deeplabv3_resnet_50.yaml │ ├── resnet/ │ │ ├── README.md │ │ ├── classification/ │ │ │ └── resnet50_in1k.yaml │ │ └── detection/ │ │ └── ssd_resnet50_coco.yaml │ └── vit/ │ ├── README.md │ └── classification/ │ └── vit_base_in1k.yaml ├── pyproject.toml ├── requirements-optional.txt ├── requirements.txt ├── setup.py ├── tests/ │ ├── __init__.py │ ├── configs.py │ ├── data/ │ │ ├── __init__.py │ │ ├── coco/ │ │ │ └── annotations/ │ │ │ ├── instances_train2017.json │ │ │ └── instances_val2017.json │ │ ├── collate_fns/ │ │ │ ├── __init__.py │ │ │ ├── test_byteformer_collate_fn.py │ │ │ └── test_collate_functions.py │ │ ├── datasets/ │ │ │ ├── __init__.py │ │ │ ├── audio_classification/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_speech_commands_v2.py │ │ │ ├── classification/ │ │ │ │ ├── __init__.py │ │ │ │ ├── dummy_configs/ │ │ │ │ │ ├── coco.yaml │ │ │ │ │ ├── image_classification_dataset.yaml │ │ │ │ │ ├── imagenet.yaml │ │ │ │ │ ├── imagenet_a.yaml │ │ │ │ │ ├── imagenet_r.yaml │ │ │ │ │ ├── imagenet_sketch.yaml │ │ │ │ │ └── wordnet_tagged_classification.yaml │ │ │ │ ├── mock_coco.py │ │ │ │ ├── mock_imagenet.py │ │ │ │ ├── mock_wordnet_tagged_classification.py │ │ │ │ ├── test_base_image_classification_dataset.py │ │ │ │ ├── test_mock_coco.py │ │ │ │ ├── test_mock_imagenet.py │ │ │ │ └── test_wordnet_tagged_classification.py │ │ │ ├── detection/ │ │ │ │ ├── __init__.py │ │ │ │ ├── mock_coco_mask_rcnn.py │ │ │ │ └── mock_coco_ssd.py │ │ │ ├── language_modeling/ │ │ │ │ ├── __init__.py │ │ │ │ ├── dummy_commonsense_170k.yaml │ │ │ │ ├── dummy_lm_dataset.yaml │ │ │ │ ├── mock_general_lm.py │ │ │ │ ├── test_commonsense_170k.py │ │ │ │ └── test_general_lm.py │ │ │ ├── multi_modal_img_text/ │ │ │ │ ├── __init__.py │ │ │ │ ├── dummy_img_text_tar_dataset.yaml │ │ │ │ ├── mock_img_text_tar_dataset.py │ │ │ │ ├── test_img_text_tar_dataset.py │ │ │ │ └── zero_shot_image_classification/ │ │ │ │ ├── __init__.py │ │ │ │ ├── dummy_configs/ │ │ │ │ │ ├── imagenet.yaml │ │ │ │ │ ├── imagenet_a.yaml │ │ │ │ │ ├── imagenet_r.yaml │ │ │ │ │ └── imagenet_sketch.yaml │ │ │ │ ├── mock_imagenet.py │ │ │ │ └── test_mock_imagenet.py │ │ │ ├── segmentation/ │ │ │ │ ├── __init__.py │ │ │ │ ├── dummy_ade20k_config.yaml │ │ │ │ ├── dummy_cocostuff_config.yaml │ │ │ │ ├── mock_ade20k.py │ │ │ │ ├── mock_coco_stuff.py │ │ │ │ ├── test_mock_ade20k.py │ │ │ │ └── test_mock_coco_stuff.py │ │ │ ├── test_dataset_base.py │ │ │ ├── test_image_pil.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ ├── test_common.py │ │ │ └── test_video.py │ │ ├── io/ │ │ │ ├── __init__.py │ │ │ └── test_transfer_clients.py │ │ ├── samplers/ │ │ │ ├── __init__.py │ │ │ ├── test_batch_sampler_config.yaml │ │ │ ├── test_chain_sampler.py │ │ │ ├── test_chain_sampler_config.yaml │ │ │ ├── test_data_samplers.py │ │ │ ├── test_multi_scale_sampler_config.yaml │ │ │ ├── test_variable_batch_sampler_config.yaml │ │ │ └── test_video_clip_batch_sampler_config.yaml │ │ ├── text_tokenizer/ │ │ │ ├── __init__.py │ │ │ ├── test_clip_tokenizer.py │ │ │ └── test_openai_clip_tokenizer.py │ │ └── video_reader/ │ │ ├── __init__.py │ │ ├── test_av_reader.py │ │ └── test_ffmpeg_utils.py │ ├── engine/ │ │ ├── __init__.py │ │ ├── dummy_configs/ │ │ │ ├── ade20k_segmentation/ │ │ │ │ └── deeplabv3_mobilenetv2.yaml │ │ │ ├── coco_detection/ │ │ │ │ ├── resnet_mask_rcnn.yaml │ │ │ │ └── resnet_ssd.yaml │ │ │ ├── image_text_clip/ │ │ │ │ └── clip_vit.yaml │ │ │ ├── imagenet_classification/ │ │ │ │ ├── efficientnet_b0.yaml │ │ │ │ ├── mobilevit.yaml │ │ │ │ └── mobilevit_v2.yaml │ │ │ └── language_modeling_gpt/ │ │ │ └── gpt.yaml │ │ └── test_training_engine.py │ ├── loss_fns/ │ │ ├── __init__.py │ │ ├── language_modeling/ │ │ │ ├── __init__.py │ │ │ ├── test_cross_entropy.py │ │ │ └── test_cross_entropy_for_kv_prediction.py │ │ ├── test_class_weighting.py │ │ ├── test_classification_loss.py │ │ ├── test_composite_loss.py │ │ ├── test_contrastive_loss.py │ │ ├── test_detection_loss.py │ │ ├── test_focal_loss.py │ │ ├── test_neural_aug.py │ │ ├── test_neural_aug_compatibility.py │ │ └── test_segmentation_loss.py │ ├── metrics/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── test_coco_map.py │ │ ├── test_image_text_retrieval_metrics.py │ │ ├── test_iou.py │ │ ├── test_misc.py │ │ ├── test_multiclass_classification_pr.py │ │ ├── test_probability_histogram.py │ │ ├── test_psnr.py │ │ ├── test_retrieval_cmc_metrics.py │ │ ├── test_topk_accuracy.py │ │ └── test_vqa_preset_score_metrics.py │ ├── misc/ │ │ ├── __init__.py │ │ ├── dummy_clip_config.yaml │ │ ├── dummy_linear_probe_config.yaml │ │ └── test_common.py │ ├── modeling/ │ │ ├── __init__.py │ │ ├── layers/ │ │ │ ├── __init__.py │ │ │ ├── normalization_layers/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_rms_norm.py │ │ │ ├── test_conv_layer.py │ │ │ ├── test_multi_head_attn.py │ │ │ ├── test_pos_embeddings.py │ │ │ ├── test_rotary_embeddings.py │ │ │ └── test_token_merging.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── audio_classification/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_base_audio_classification.py │ │ │ │ └── test_byteformer.py │ │ │ ├── classification/ │ │ │ │ ├── __init__.py │ │ │ │ ├── config/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_byteformer.py │ │ │ │ │ └── vit_config.yaml │ │ │ │ ├── test_byteformer.py │ │ │ │ └── test_vit.py │ │ │ ├── language_modeling/ │ │ │ │ ├── __init__.py │ │ │ │ ├── config/ │ │ │ │ │ ├── gpt_config.yaml │ │ │ │ │ └── kv_prediction_config.yaml │ │ │ │ ├── test_general_gpt.py │ │ │ │ └── test_kv_prediction.py │ │ │ ├── test_activation_checkpointing_wrapper.py │ │ │ ├── test_lora.py │ │ │ └── test_neural_aug_utils.py │ │ ├── modules/ │ │ │ ├── __init__.py │ │ │ ├── test_transformer.py │ │ │ └── test_windowed_transformer.py │ │ └── test_model.py │ ├── optims/ │ │ ├── __init__.py │ │ └── scheduler/ │ │ ├── __init__.py │ │ └── test_scheduler.py │ ├── options/ │ │ ├── __init__.py │ │ ├── test_parse_args.py │ │ └── test_utils.py │ ├── test_conventions.py │ ├── test_utils.py │ ├── transforms/ │ │ ├── __init__.py │ │ ├── test_audio.py │ │ ├── test_audio_bytes.py │ │ ├── test_image.py │ │ ├── test_image_bytes.py │ │ └── test_video.py │ └── utils/ │ ├── __init__.py │ ├── test_check.py │ ├── test_common_utils.py │ ├── test_dict_utils.py │ ├── test_download_utils.py │ ├── test_file_logger.py │ └── test_import_utils.py ├── tools/ │ ├── __init__.py │ └── converter_coco_stuff.py ├── tox.ini └── tutorials/ ├── clip.ipynb ├── guide_slurm_and_multi_node_training.md ├── object_detection.ipynb ├── semantic_segmentation.ipynb └── train_a_new_model_on_a_new_dataset_from_scratch.ipynb