gitextract_6l_knisq/ ├── LICENSE ├── README.md └── 第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/ ├── 00 预训练语言模型的前世今生(全文 24854 个词).md ├── 03 什么是预训练(Transformer 前奏).md ├── 04 统计语言模型(n元语言模型).md ├── 05 神经网络语言模型(独热编码+词向量的起源).md ├── 06 Word2Vec模型(第一个专门做词向量的模型,CBOW和Skip-gram).md ├── 07 预训练语言模型的下游任务改造简介(如何使用词向量).md ├── 08 ELMo模型(双向LSTM模型解决词向量多义问题).md ├── 09 什么是注意力机制(Attention ).md ├── 10 Self-Attention(自注意力机制).md ├── 11 Self-Attention相比较 RNN和LSTM的优缺点.md ├── 12 Masked Self-Attention(掩码自注意力机制).md ├── 13 Multi-Head Self-Attention(从空间角度解释为什么做多头).md ├── 14 Positional Encoding (为什么 Self-Attention 需要位置编码).md ├── 1401 位置编码公式详细理解补充.md ├── 15 Transformer 框架概述.md ├── 16 Transformer 的编码器(Encodes)——我在做更优秀的词向量.md ├── 17 Transformer 的解码器(Decoders)——我要生成一个又一个单词.md ├── 18 Transformer 的动态流程.md └── 19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力).md