gitextract_21_vu5fa/

├── .claude/
│   └── skills/
│       └── read-arxiv-paper/
│           └── SKILL.md
├── .gitignore
├── .python-version
├── LICENSE
├── README.md
├── dev/
│   ├── LEADERBOARD.md
│   ├── LOG.md
│   ├── estimate_gpt3_core.ipynb
│   ├── gen_synthetic_data.py
│   ├── generate_logo.html
│   ├── repackage_data_reference.py
│   └── scaling_analysis.ipynb
├── nanochat/
│   ├── __init__.py
│   ├── checkpoint_manager.py
│   ├── common.py
│   ├── core_eval.py
│   ├── dataloader.py
│   ├── dataset.py
│   ├── engine.py
│   ├── execution.py
│   ├── flash_attention.py
│   ├── fp8.py
│   ├── gpt.py
│   ├── loss_eval.py
│   ├── optim.py
│   ├── report.py
│   ├── tokenizer.py
│   └── ui.html
├── pyproject.toml
├── runs/
│   ├── miniseries.sh
│   ├── runcpu.sh
│   ├── scaling_laws.sh
│   └── speedrun.sh
├── scripts/
│   ├── base_eval.py
│   ├── base_train.py
│   ├── chat_cli.py
│   ├── chat_eval.py
│   ├── chat_rl.py
│   ├── chat_sft.py
│   ├── chat_web.py
│   ├── tok_eval.py
│   └── tok_train.py
├── tasks/
│   ├── arc.py
│   ├── common.py
│   ├── customjson.py
│   ├── gsm8k.py
│   ├── humaneval.py
│   ├── mmlu.py
│   ├── smoltalk.py
│   └── spellingbee.py
└── tests/
    ├── test_attention_fallback.py
    └── test_engine.py