gitextract_6l_knisq/

├── LICENSE
├── README.md
└── 第一篇 Transformer、GPT、BERT，预训练语言模型的前世今生（理论）/
    ├── 00 预训练语言模型的前世今生（全文 24854 个词）.md
    ├── 03 什么是预训练（Transformer 前奏）.md
    ├── 04 统计语言模型（n元语言模型）.md
    ├── 05 神经网络语言模型（独热编码+词向量的起源）.md
    ├── 06 Word2Vec模型（第一个专门做词向量的模型，CBOW和Skip-gram）.md
    ├── 07 预训练语言模型的下游任务改造简介（如何使用词向量）.md
    ├── 08 ELMo模型（双向LSTM模型解决词向量多义问题）.md
    ├── 09 什么是注意力机制（Attention ）.md
    ├── 10 Self-Attention（自注意力机制）.md
    ├── 11 Self-Attention相比较 RNN和LSTM的优缺点.md
    ├── 12 Masked Self-Attention（掩码自注意力机制）.md
    ├── 13 Multi-Head Self-Attention（从空间角度解释为什么做多头）.md
    ├── 14 Positional Encoding （为什么 Self-Attention 需要位置编码）.md
    ├── 1401 位置编码公式详细理解补充.md
    ├── 15 Transformer 框架概述.md
    ├── 16 Transformer 的编码器（Encodes）——我在做更优秀的词向量.md
    ├── 17 Transformer 的解码器（Decoders）——我要生成一个又一个单词.md
    ├── 18 Transformer 的动态流程.md
    └── 19 Transformer 解码器的两个为什么（为什么做掩码、为什么用编码器-解码器注意力）.md