gitextract_21_vu5fa/ ├── .claude/ │ └── skills/ │ └── read-arxiv-paper/ │ └── SKILL.md ├── .gitignore ├── .python-version ├── LICENSE ├── README.md ├── dev/ │ ├── LEADERBOARD.md │ ├── LOG.md │ ├── estimate_gpt3_core.ipynb │ ├── gen_synthetic_data.py │ ├── generate_logo.html │ ├── repackage_data_reference.py │ └── scaling_analysis.ipynb ├── nanochat/ │ ├── __init__.py │ ├── checkpoint_manager.py │ ├── common.py │ ├── core_eval.py │ ├── dataloader.py │ ├── dataset.py │ ├── engine.py │ ├── execution.py │ ├── flash_attention.py │ ├── fp8.py │ ├── gpt.py │ ├── loss_eval.py │ ├── optim.py │ ├── report.py │ ├── tokenizer.py │ └── ui.html ├── pyproject.toml ├── runs/ │ ├── miniseries.sh │ ├── runcpu.sh │ ├── scaling_laws.sh │ └── speedrun.sh ├── scripts/ │ ├── base_eval.py │ ├── base_train.py │ ├── chat_cli.py │ ├── chat_eval.py │ ├── chat_rl.py │ ├── chat_sft.py │ ├── chat_web.py │ ├── tok_eval.py │ └── tok_train.py ├── tasks/ │ ├── arc.py │ ├── common.py │ ├── customjson.py │ ├── gsm8k.py │ ├── humaneval.py │ ├── mmlu.py │ ├── smoltalk.py │ └── spellingbee.py └── tests/ ├── test_attention_fallback.py └── test_engine.py