gitextract_wk0u_t6d/ ├── .github/ │ └── ISSUE_TEMPLATE/ │ ├── book_issue.yml │ └── config.yml ├── .gitignore ├── Extra-Chapter/ │ ├── CDDRS/ │ │ ├── CDDRS.ipynb │ │ └── readme.md │ ├── Readme.md │ ├── generation-method/ │ │ ├── llm_generation.py │ │ ├── model_down.py │ │ └── readme.md │ ├── s1-vllm-thinking-budget/ │ │ ├── output/ │ │ │ ├── output_1754208752.txt │ │ │ └── output_1754209653.txt │ │ ├── readme.md │ │ └── s1.py │ ├── text-data-processing/ │ │ └── readme.md │ ├── transformer-architecture/ │ │ └── readme.md │ ├── vlm-concatenation-finetune/ │ │ └── README.md │ └── why-fine-tune-small-large-language-models/ │ ├── readme.md │ └── why-fine-tune-small-large-language-models.ipynb ├── LICENSE.txt ├── README.md ├── README_en.md └── docs/ ├── .nojekyll ├── README.md ├── _sidebar.md ├── chapter1/ │ └── 第一章 NLP基础概念.md ├── chapter2/ │ ├── code/ │ │ ├── requirements.txt │ │ └── transformer.py │ └── 第二章 Transformer架构.md ├── chapter3/ │ └── 第三章 预训练语言模型.md ├── chapter4/ │ └── 第四章 大语言模型.md ├── chapter5/ │ ├── code/ │ │ ├── dataset.py │ │ ├── ddp_pretrain.py │ │ ├── ddp_sft_full.py │ │ ├── deal_dataset.py │ │ ├── download_dataset.sh │ │ ├── export_model.py │ │ ├── k_model.py │ │ ├── model_sample.py │ │ ├── requirements.txt │ │ ├── tokenizer_k/ │ │ │ ├── special_tokens_map.json │ │ │ ├── tokenizer.json │ │ │ └── tokenizer_config.json │ │ ├── train_tokenizer.py │ │ └── windows_download_dataset.sh │ └── 第五章 动手搭建大模型.md ├── chapter6/ │ ├── 6.4[WIP] 偏好对齐.md │ ├── code/ │ │ ├── download_dataset.py │ │ ├── download_model.py │ │ ├── ds_config_zero2.json │ │ ├── finetune.py │ │ ├── finetune.sh │ │ ├── pretrain.ipynb │ │ ├── pretrain.py │ │ ├── pretrain.sh │ │ ├── process_dataset.ipynb │ │ ├── requirements.txt │ │ └── whole.ipynb │ ├── readme.md │ └── 第六章 大模型训练流程实践.md ├── chapter7/ │ ├── Agent/ │ │ ├── demo.py │ │ ├── requirements.txt │ │ ├── src/ │ │ │ ├── __init__.py │ │ │ ├── core.py │ │ │ ├── tools.py │ │ │ └── utils.py │ │ └── web_demo.py │ ├── RAG/ │ │ ├── .env_example │ │ ├── Embeddings.py │ │ ├── LLM.py │ │ ├── VectorBase.py │ │ ├── demo.py │ │ ├── requirements.txt │ │ └── utils.py │ └── 第七章 大模型应用.md ├── index.html └── 前言.md