gitextract_shohcgjg/ ├── .gitignore ├── .pre-commit-config.yaml ├── LICENSE ├── MANIFEST.in ├── README.md ├── abacus.py ├── arithmetic_eval_quicker.py ├── cramming/ │ ├── __init__.py │ ├── architectures/ │ │ ├── __init__.py │ │ ├── attention.py │ │ ├── components.py │ │ ├── construction.py │ │ ├── crammed_depthrecurrent.py │ │ ├── crammed_transformer.py │ │ ├── embeddings.py │ │ ├── huggingface_interface.py │ │ ├── losses.py │ │ └── sanity_check.py │ ├── backend/ │ │ ├── __init__.py │ │ ├── optimizers/ │ │ │ ├── __init__.py │ │ │ ├── optimizer_modifiers.py │ │ │ ├── progressive_batching.py │ │ │ └── schedulers.py │ │ ├── prepare_backend.py │ │ ├── torch_default.py │ │ └── utils.py │ ├── config/ │ │ ├── __init__.py │ │ ├── arch/ │ │ │ ├── __init__.py │ │ │ ├── albert.yaml │ │ │ ├── crammed-depthrecurrent.yaml │ │ │ ├── crammed-fakeRNN.yaml │ │ │ ├── crammed-janus.yaml │ │ │ ├── crammed-rnn.yaml │ │ │ ├── crammed-stack-janus.yaml │ │ │ ├── crammed-tiny.yaml │ │ │ ├── crammed-transformer.yaml │ │ │ ├── gpt2-base.yaml │ │ │ ├── hf-gpt2.yaml │ │ │ └── sanitycheck.yaml │ │ ├── cfg_eval.yaml │ │ ├── cfg_pretrain.yaml │ │ ├── data/ │ │ │ ├── __init__.py │ │ │ ├── arithmetic.yaml │ │ │ ├── c4-subset-processed.yaml │ │ │ ├── openweb.yaml │ │ │ ├── proofpile.yaml │ │ │ ├── sanity-check-1.yaml │ │ │ ├── sanity-check-2.yaml │ │ │ └── sources/ │ │ │ ├── ag_news.yaml │ │ │ ├── arithmetic.yaml │ │ │ ├── bookcorpus.yaml │ │ │ ├── c4.yaml │ │ │ ├── dash_books.yaml │ │ │ ├── fake.yaml │ │ │ ├── iwslt.yaml │ │ │ ├── local.yaml │ │ │ ├── no_code_stackexchange.yaml │ │ │ ├── openwebtext.yaml │ │ │ ├── oscar.yaml │ │ │ ├── proofpiledata.yaml │ │ │ ├── the_pile.yaml │ │ │ ├── the_pileCC.yaml │ │ │ ├── the_pile_dedup.yaml │ │ │ ├── the_pile_natural.yaml │ │ │ ├── the_pile_stream.yaml │ │ │ ├── uncorpus.yaml │ │ │ ├── uspto.yaml │ │ │ ├── wikibooks.yaml │ │ │ ├── wikinews.yaml │ │ │ ├── wikipedia.yaml │ │ │ ├── wikiquote.yaml │ │ │ ├── wikiversity.yaml │ │ │ └── wikivoyage.yaml │ │ ├── eval/ │ │ │ ├── __init__.py │ │ │ ├── pythia.yaml │ │ │ └── tasks/ │ │ │ ├── lambada_openai.yaml │ │ │ └── winogrande.yaml │ │ ├── hydra/ │ │ │ ├── __init__.py │ │ │ └── job_logging/ │ │ │ └── custom.yaml │ │ ├── impl/ │ │ │ ├── __init__.py │ │ │ ├── _default.yaml │ │ │ └── torch-default.yaml │ │ ├── train/ │ │ │ ├── __init__.py │ │ │ ├── common.yaml │ │ │ ├── cramming.yaml │ │ │ ├── janus-regime.yaml │ │ │ ├── optim/ │ │ │ │ ├── adafactor.yaml │ │ │ │ ├── adahessian.yaml │ │ │ │ ├── adam.yaml │ │ │ │ ├── adam8bit.yaml │ │ │ │ ├── adam_classic.yaml │ │ │ │ ├── adamscale.yaml │ │ │ │ ├── agd.yaml │ │ │ │ ├── lion.yaml │ │ │ │ ├── radam.yaml │ │ │ │ ├── sgd.yaml │ │ │ │ └── shampoo.yaml │ │ │ └── optim_mod/ │ │ │ ├── disabled.yaml │ │ │ ├── larc.yaml │ │ │ ├── lars.yaml │ │ │ ├── progressive.yaml │ │ │ └── sam.yaml │ │ └── wandb/ │ │ ├── default.yaml │ │ └── none.yaml │ ├── data/ │ │ ├── __init__.py │ │ ├── arithmetic_tokenizers.py │ │ ├── curriculum_sorting.py │ │ ├── deduplicate.py │ │ ├── pretraining_preparation.py │ │ ├── tokenizer_preparation.py │ │ └── utils.py │ └── utils.py ├── create_data_split.py ├── create_pos_or_variants.py ├── dataset_analysis.py ├── gen_eval_script.py ├── load_local_model.py ├── pretrain.py ├── pretty_plotter.py ├── pretty_plotter_big.py ├── pretty_plotter_sort.py ├── pyproject.toml ├── setup.cfg ├── shells/ │ ├── addition_ff.sh │ ├── addition_lt.sh │ ├── bitwise_or.sh │ ├── evaluation.sh │ ├── generate_and_tokenize_data.sh │ ├── multiplication.sh │ └── sorting.sh ├── sort_eval.py └── upload_processed_dataset.py