gitextract_shohcgjg/

├── .gitignore
├── .pre-commit-config.yaml
├── LICENSE
├── MANIFEST.in
├── README.md
├── abacus.py
├── arithmetic_eval_quicker.py
├── cramming/
│   ├── __init__.py
│   ├── architectures/
│   │   ├── __init__.py
│   │   ├── attention.py
│   │   ├── components.py
│   │   ├── construction.py
│   │   ├── crammed_depthrecurrent.py
│   │   ├── crammed_transformer.py
│   │   ├── embeddings.py
│   │   ├── huggingface_interface.py
│   │   ├── losses.py
│   │   └── sanity_check.py
│   ├── backend/
│   │   ├── __init__.py
│   │   ├── optimizers/
│   │   │   ├── __init__.py
│   │   │   ├── optimizer_modifiers.py
│   │   │   ├── progressive_batching.py
│   │   │   └── schedulers.py
│   │   ├── prepare_backend.py
│   │   ├── torch_default.py
│   │   └── utils.py
│   ├── config/
│   │   ├── __init__.py
│   │   ├── arch/
│   │   │   ├── __init__.py
│   │   │   ├── albert.yaml
│   │   │   ├── crammed-depthrecurrent.yaml
│   │   │   ├── crammed-fakeRNN.yaml
│   │   │   ├── crammed-janus.yaml
│   │   │   ├── crammed-rnn.yaml
│   │   │   ├── crammed-stack-janus.yaml
│   │   │   ├── crammed-tiny.yaml
│   │   │   ├── crammed-transformer.yaml
│   │   │   ├── gpt2-base.yaml
│   │   │   ├── hf-gpt2.yaml
│   │   │   └── sanitycheck.yaml
│   │   ├── cfg_eval.yaml
│   │   ├── cfg_pretrain.yaml
│   │   ├── data/
│   │   │   ├── __init__.py
│   │   │   ├── arithmetic.yaml
│   │   │   ├── c4-subset-processed.yaml
│   │   │   ├── openweb.yaml
│   │   │   ├── proofpile.yaml
│   │   │   ├── sanity-check-1.yaml
│   │   │   ├── sanity-check-2.yaml
│   │   │   └── sources/
│   │   │       ├── ag_news.yaml
│   │   │       ├── arithmetic.yaml
│   │   │       ├── bookcorpus.yaml
│   │   │       ├── c4.yaml
│   │   │       ├── dash_books.yaml
│   │   │       ├── fake.yaml
│   │   │       ├── iwslt.yaml
│   │   │       ├── local.yaml
│   │   │       ├── no_code_stackexchange.yaml
│   │   │       ├── openwebtext.yaml
│   │   │       ├── oscar.yaml
│   │   │       ├── proofpiledata.yaml
│   │   │       ├── the_pile.yaml
│   │   │       ├── the_pileCC.yaml
│   │   │       ├── the_pile_dedup.yaml
│   │   │       ├── the_pile_natural.yaml
│   │   │       ├── the_pile_stream.yaml
│   │   │       ├── uncorpus.yaml
│   │   │       ├── uspto.yaml
│   │   │       ├── wikibooks.yaml
│   │   │       ├── wikinews.yaml
│   │   │       ├── wikipedia.yaml
│   │   │       ├── wikiquote.yaml
│   │   │       ├── wikiversity.yaml
│   │   │       └── wikivoyage.yaml
│   │   ├── eval/
│   │   │   ├── __init__.py
│   │   │   ├── pythia.yaml
│   │   │   └── tasks/
│   │   │       ├── lambada_openai.yaml
│   │   │       └── winogrande.yaml
│   │   ├── hydra/
│   │   │   ├── __init__.py
│   │   │   └── job_logging/
│   │   │       └── custom.yaml
│   │   ├── impl/
│   │   │   ├── __init__.py
│   │   │   ├── _default.yaml
│   │   │   └── torch-default.yaml
│   │   ├── train/
│   │   │   ├── __init__.py
│   │   │   ├── common.yaml
│   │   │   ├── cramming.yaml
│   │   │   ├── janus-regime.yaml
│   │   │   ├── optim/
│   │   │   │   ├── adafactor.yaml
│   │   │   │   ├── adahessian.yaml
│   │   │   │   ├── adam.yaml
│   │   │   │   ├── adam8bit.yaml
│   │   │   │   ├── adam_classic.yaml
│   │   │   │   ├── adamscale.yaml
│   │   │   │   ├── agd.yaml
│   │   │   │   ├── lion.yaml
│   │   │   │   ├── radam.yaml
│   │   │   │   ├── sgd.yaml
│   │   │   │   └── shampoo.yaml
│   │   │   └── optim_mod/
│   │   │       ├── disabled.yaml
│   │   │       ├── larc.yaml
│   │   │       ├── lars.yaml
│   │   │       ├── progressive.yaml
│   │   │       └── sam.yaml
│   │   └── wandb/
│   │       ├── default.yaml
│   │       └── none.yaml
│   ├── data/
│   │   ├── __init__.py
│   │   ├── arithmetic_tokenizers.py
│   │   ├── curriculum_sorting.py
│   │   ├── deduplicate.py
│   │   ├── pretraining_preparation.py
│   │   ├── tokenizer_preparation.py
│   │   └── utils.py
│   └── utils.py
├── create_data_split.py
├── create_pos_or_variants.py
├── dataset_analysis.py
├── gen_eval_script.py
├── load_local_model.py
├── pretrain.py
├── pretty_plotter.py
├── pretty_plotter_big.py
├── pretty_plotter_sort.py
├── pyproject.toml
├── setup.cfg
├── shells/
│   ├── addition_ff.sh
│   ├── addition_lt.sh
│   ├── bitwise_or.sh
│   ├── evaluation.sh
│   ├── generate_and_tokenize_data.sh
│   ├── multiplication.sh
│   └── sorting.sh
├── sort_eval.py
└── upload_processed_dataset.py