gitextract_i_vpdwyb/

├── Pytorch/
│   ├── B站-Pytorch与深度学习-代码/
│   │   ├── minist.py
│   │   ├── mnist_data/
│   │   │   ├── test.txt
│   │   │   └── train.txt
│   │   └── 线性回归/
│   │       ├── .idea/
│   │       │   ├── inspectionProfiles/
│   │       │   │   └── profiles_settings.xml
│   │       │   ├── misc.xml
│   │       │   ├── modules.xml
│   │       │   ├── workspace.xml
│   │       │   └── 线性回归.iml
│   │       ├── .ipynb_checkpoints/
│   │       │   └── house_price_predict-checkpoint.ipynb
│   │       ├── dasou_mlp.py
│   │       ├── sigmoid.csv
│   │       └── sigmoid.py
│   ├── Pytorch中mask是如何实现的代码版本1-阅读文本相似度模型.md
│   ├── Pytorch修改ESIM代码中mask矩阵查看效果-效果一般.md
│   ├── README.md
│   ├── pytorch处理文本数据代码版本1-处理文本相似度数据.md
│   ├── pytorch处理文本数据代码版本2-处理文本相似度数据.md
│   └── pytorch对text数据的预处理-综述.md
├── README.md
├── 推荐/
│   ├── FM.md
│   ├── WDL/
│   │   ├── WDL 在贝壳推荐场景的实践.xmind
│   │   ├── WDL在贝壳中的应用实践总结.md
│   │   └── WDl.md
│   ├── deepfm.md
│   └── 推荐资源更新.md
├── 搜索/
│   ├── 倒排索引基本概念.md
│   └── 搜索资源总结-持续更新.md
└── 深度学习自然语言处理/
    ├── Bert/
    │   ├── ALBERT-更小更少但并不快.md
    │   ├── Bert各种后续预训练模型-预训练模型的改进.md
    │   ├── Bert如何融入知识一-百度和清华ERINE.md
    │   ├── Bert如何融入知识二-Bert融合知识图谱.md
    │   ├── Bert的可视化-Bert每一层都学到了什么.md
    │   ├── Bert资源总结.md
    │   ├── FastBert.md
    │   ├── Pytorch代码分析-如何让Bert在finetune小数据集时更“稳”一点.md
    │   ├── RoBERTa.md
    │   ├── UniLM.md
    │   ├── XLNET.md
    │   ├── tBERT-BERT融合主题模型.md
    │   ├── 为什么Bert做不好无监督语义匹配.md
    │   ├── 如何在脱敏数据中使用BERT等预训练模型.md
    │   └── 解决老大难问题-如何一行代码带你随心所欲重新初始化bert的某些参数(附Pytorch代码).md
    ├── Transformer/
    │   ├── 3分钟从零解读Transformer的Encoder.md
    │   ├── BN踩坑记--谈一下Batch Normalization的优缺点和适用场景.md
    │   ├── NLP任务中-layer-norm比BatchNorm好在哪里.md
    │   ├── Transformer的并行化.md
    │   ├── Transformer面试题全部答案解析合辑.md
    │   ├── VIT-如何将Transformer更好的应用到CV领域.md
    │   ├── transformer-bert资源总结.md
    │   ├── transformer资源总结.md
    │   ├── 原版Transformer的位置编码究竟有没有包含相对位置信息.md
    │   ├── 史上最全Transformer面试题.md
    │   ├── 答案合辑.md
    │   ├── 答案解析(1)—史上最全Transformer面试题：灵魂20问帮你彻底搞定Transformer.md
    │   ├── 谈一下相对位置编码.md
    │   └── 谈一谈Decoder模块.md
    ├── 关键词提取/
    │   ├── README.md
    │   ├── 中文分词/
    │   │   └── 基于词典的正向最大匹配和逆向最大匹配中文分词.md
    │   ├── 关键词提取方法综述.md
    │   ├── 关键词提取资源总结.md
    │   └── 实体库构建：大规模离线新词实体挖掘.md
    ├── 其他/
    │   ├── 20201210一周技术问题答疑汇总.md
    │   └── RNN的梯度消失有什么与众不同的地方.md
    ├── 句向量/
    │   ├── README.md
    │   └── 句向量模型综述.md
    ├── 命名体识别/
    │   ├── FLAT-Transformer.md
    │   ├── HMM_CRF.md
    │   ├── README.md
    │   ├── TNER-复旦为什么TRM在NER上效果差.md
    │   ├── autoner.md
    │   ├── 命名体识别资源梳理(代码+博客讲解).md
    │   ├── 工业级命名体识别的做法.md
    │   └── 词典匹配+模型预测-实体识别两大法宝.md
    ├── 多模态/
    │   ├── 复盘多模态需要解决的6个问题.md
    │   ├── 多模态中各种Fusion方式汇总.md
    │   ├── 多模态之ViLBERT：双流网络，各自为王.md
    │   ├── 多模态资源汇总.md
    │   ├── 如何将多模态数据融入到BERT架构中-多模态BERT的两类预训练任务.md
    │   ├── 层次体系的构建-多模态解析.md
    │   ├── 层次分类体系的必要性-多模态讲解系列.md
    │   └── 文本和图像特征表示模块详解-多模态讲解系列.md
    ├── 对比学习/
    │   └── Moco1论文解析.md
    ├── 文本分类/
    │   ├── ACL2020-多任务负监督方式增加CLS表达差异性.md
    │   ├── CNN文本分类解读.md
    │   ├── LCM-缓解标签不独立以及标注错误的问题.md
    │   ├── README.md
    │   ├── UDA.md
    │   ├── 关键词信息如何融入到文本分类任务中.md
    │   ├── 半监督入门思想之伪标签.md
    │   ├── 只使用标签名称就可以文本分类.md
    │   ├── 在文本分类上微调Bert.md
    │   └── 文本分类资源总结.md
    ├── 文本匹配和文本相似度/
    │   ├── DSSM论文-公司实战文章.md
    │   ├── ESIM.md
    │   ├── SIMCSE论文解析.md
    │   ├── bert白化简单的梳理.md
    │   ├── src/
    │   │   ├── ESIM-attention/
    │   │   │   ├── .idea/
    │   │   │   │   ├── ESIM-attention.iml
    │   │   │   │   ├── inspectionProfiles/
    │   │   │   │   │   └── profiles_settings.xml
    │   │   │   │   ├── misc.xml
    │   │   │   │   ├── modules.xml
    │   │   │   │   └── workspace.xml
    │   │   │   ├── ESIM代码解读.md
    │   │   │   └── process.py
    │   │   └── models.py
    │   ├── 五千字全面梳理文本相似度和文本匹配模型.md
    │   ├── 聊一下孪生网络和DSSM的混淆点以及向量召回的一个细节.md
    │   └── 阿里RE2-将残差连接和文本匹配模型融合.md
    ├── 文本纠错/
    │   └── 文本纠错资源总结.md
    ├── 机器翻译/
    │   ├── OpenNMT-py/
    │   │   ├── .gitignore
    │   │   ├── .travis.yml
    │   │   ├── CHANGELOG.md
    │   │   ├── CONTRIBUTING.md
    │   │   ├── LICENSE.md
    │   │   ├── README.md
    │   │   ├── README_old.md
    │   │   ├── available_models/
    │   │   │   └── example.conf.json
    │   │   ├── config/
    │   │   │   ├── config-rnn-summarization.yml
    │   │   │   ├── config-transformer-base-1GPU.yml
    │   │   │   └── config-transformer-base-4GPU.yml
    │   │   ├── docs/
    │   │   │   ├── Makefile
    │   │   │   ├── requirements.txt
    │   │   │   └── source/
    │   │   │       ├── CONTRIBUTING.md
    │   │   │       ├── FAQ.md
    │   │   │       ├── Library.ipynb
    │   │   │       ├── Library.md
    │   │   │       ├── Summarization.md
    │   │   │       ├── _static/
    │   │   │       │   └── theme_overrides.css
    │   │   │       ├── conf.py
    │   │   │       ├── examples.rst
    │   │   │       ├── extended.md
    │   │   │       ├── im2text.md
    │   │   │       ├── index.md
    │   │   │       ├── index.rst
    │   │   │       ├── main.md
    │   │   │       ├── modules.rst
    │   │   │       ├── onmt.inputters.rst
    │   │   │       ├── onmt.modules.rst
    │   │   │       ├── onmt.rst
    │   │   │       ├── onmt.translate.translation_server.rst
    │   │   │       ├── onmt.translation.rst
    │   │   │       ├── options/
    │   │   │       │   ├── preprocess.rst
    │   │   │       │   ├── server.rst
    │   │   │       │   ├── train.rst
    │   │   │       │   └── translate.rst
    │   │   │       ├── quickstart.md
    │   │   │       ├── ref.rst
    │   │   │       ├── refs.bib
    │   │   │       ├── speech2text.md
    │   │   │       └── vid2text.rst
    │   │   ├── floyd.yml
    │   │   ├── floyd_requirements.txt
    │   │   ├── github_deploy_key_opennmt_opennmt_py.enc
    │   │   ├── onmt/
    │   │   │   ├── __init__.py
    │   │   │   ├── bin/
    │   │   │   │   ├── __init__.py
    │   │   │   │   ├── average_models.py
    │   │   │   │   ├── preprocess.py
    │   │   │   │   ├── server.py
    │   │   │   │   ├── train.py
    │   │   │   │   └── translate.py
    │   │   │   ├── decoders/
    │   │   │   │   ├── __init__.py
    │   │   │   │   ├── cnn_decoder.py
    │   │   │   │   ├── decoder.py
    │   │   │   │   ├── ensemble.py
    │   │   │   │   └── transformer.py
    │   │   │   ├── encoders/
    │   │   │   │   ├── __init__.py
    │   │   │   │   ├── audio_encoder.py
    │   │   │   │   ├── cnn_encoder.py
    │   │   │   │   ├── encoder.py
    │   │   │   │   ├── image_encoder.py
    │   │   │   │   ├── mean_encoder.py
    │   │   │   │   ├── rnn_encoder.py
    │   │   │   │   └── transformer.py
    │   │   │   ├── inputters/
    │   │   │   │   ├── __init__.py
    │   │   │   │   ├── audio_dataset.py
    │   │   │   │   ├── datareader_base.py
    │   │   │   │   ├── dataset_base.py
    │   │   │   │   ├── image_dataset.py
    │   │   │   │   ├── inputter.py
    │   │   │   │   ├── text_dataset.py
    │   │   │   │   └── vec_dataset.py
    │   │   │   ├── model_builder.py
    │   │   │   ├── models/
    │   │   │   │   ├── __init__.py
    │   │   │   │   ├── model.py
    │   │   │   │   ├── model_saver.py
    │   │   │   │   ├── sru.py
    │   │   │   │   └── stacked_rnn.py
    │   │   │   ├── modules/
    │   │   │   │   ├── __init__.py
    │   │   │   │   ├── average_attn.py
    │   │   │   │   ├── conv_multi_step_attention.py
    │   │   │   │   ├── copy_generator.py
    │   │   │   │   ├── embeddings.py
    │   │   │   │   ├── gate.py
    │   │   │   │   ├── global_attention.py
    │   │   │   │   ├── multi_headed_attn.py
    │   │   │   │   ├── position_ffn.py
    │   │   │   │   ├── sparse_activations.py
    │   │   │   │   ├── sparse_losses.py
    │   │   │   │   ├── structured_attention.py
    │   │   │   │   ├── util_class.py
    │   │   │   │   └── weight_norm.py
    │   │   │   ├── opts.py
    │   │   │   ├── train_single.py
    │   │   │   ├── trainer.py
    │   │   │   ├── translate/
    │   │   │   │   ├── __init__.py
    │   │   │   │   ├── beam_search.py
    │   │   │   │   ├── decode_strategy.py
    │   │   │   │   ├── greedy_search.py
    │   │   │   │   ├── penalties.py
    │   │   │   │   ├── process_zh.py
    │   │   │   │   ├── translation.py
    │   │   │   │   ├── translation_server.py
    │   │   │   │   └── translator.py
    │   │   │   └── utils/
    │   │   │       ├── __init__.py
    │   │   │       ├── alignment.py
    │   │   │       ├── cnn_factory.py
    │   │   │       ├── distributed.py
    │   │   │       ├── earlystopping.py
    │   │   │       ├── logging.py
    │   │   │       ├── loss.py
    │   │   │       ├── misc.py
    │   │   │       ├── optimizers.py
    │   │   │       ├── parse.py
    │   │   │       ├── report_manager.py
    │   │   │       ├── rnn_factory.py
    │   │   │       └── statistics.py
    │   │   ├── preprocess.py
    │   │   ├── process_ori_data.py
    │   │   ├── requirements.opt.txt
    │   │   ├── server.py
    │   │   ├── setup.py
    │   │   ├── tools/
    │   │   │   ├── README.md
    │   │   │   ├── apply_bpe.py
    │   │   │   ├── average_models.py
    │   │   │   ├── bpe_pipeline.sh
    │   │   │   ├── create_vocabulary.py
    │   │   │   ├── detokenize.perl
    │   │   │   ├── embeddings_to_torch.py
    │   │   │   ├── extract_embeddings.py
    │   │   │   ├── learn_bpe.py
    │   │   │   ├── multi-bleu-detok.perl
    │   │   │   ├── nonbreaking_prefixes/
    │   │   │   │   ├── README.txt
    │   │   │   │   ├── nonbreaking_prefix.ca
    │   │   │   │   ├── nonbreaking_prefix.cs
    │   │   │   │   ├── nonbreaking_prefix.de
    │   │   │   │   ├── nonbreaking_prefix.el
    │   │   │   │   ├── nonbreaking_prefix.en
    │   │   │   │   ├── nonbreaking_prefix.es
    │   │   │   │   ├── nonbreaking_prefix.fi
    │   │   │   │   ├── nonbreaking_prefix.fr
    │   │   │   │   ├── nonbreaking_prefix.ga
    │   │   │   │   ├── nonbreaking_prefix.hu
    │   │   │   │   ├── nonbreaking_prefix.is
    │   │   │   │   ├── nonbreaking_prefix.it
    │   │   │   │   ├── nonbreaking_prefix.lt
    │   │   │   │   ├── nonbreaking_prefix.lv
    │   │   │   │   ├── nonbreaking_prefix.nl
    │   │   │   │   ├── nonbreaking_prefix.pl
    │   │   │   │   ├── nonbreaking_prefix.ro
    │   │   │   │   ├── nonbreaking_prefix.ru
    │   │   │   │   ├── nonbreaking_prefix.sk
    │   │   │   │   ├── nonbreaking_prefix.sl
    │   │   │   │   ├── nonbreaking_prefix.sv
    │   │   │   │   ├── nonbreaking_prefix.ta
    │   │   │   │   ├── nonbreaking_prefix.yue
    │   │   │   │   └── nonbreaking_prefix.zh
    │   │   │   ├── release_model.py
    │   │   │   ├── test_rouge.py
    │   │   │   ├── tokenizer.perl
    │   │   │   └── vid_feature_extractor.py
    │   │   ├── train.py
    │   │   └── translate.py
    │   ├── README.md
    │   └── bpe-subword论文的我的阅读总结.md
    ├── 模型蒸馏/
    │   ├── BERT知识蒸馏代码解析-如何写好损失函数.md
    │   ├── Bert蒸馏到简单网络lstm.md
    │   ├── PKD-Bert基于多层的知识蒸馏方式.md
    │   ├── Theseus-模块压缩交替训练.md
    │   ├── bert2textcnn模型蒸馏.md
    │   ├── tinybert-全方位蒸馏.md
    │   ├── 什么是知识蒸馏.md
    │   └── 知识蒸馏综述万字长文.md
    ├── 论文解读/
    │   └── 模型训练需不需要将损失降低为零.md
    └── 词向量/
        ├── CBOW和skip-gram相较而言，彼此相对适合哪些场景.md
        ├── Fasttext解读(1).md
        ├── Fasttext解读(2).md
        ├── README.md
        ├── Word2vec为什么需要二次采样？.md
        ├── Word2vec模型究竟是如何获得词向量的.md
        ├── Word2vec的负采样.md
        ├── Word2vec训练参数的选定.md
        ├── word2vec两种优化方式的联系和区别.md
        ├── 史上最全词向量面试题梳理.md
        ├── 聊一下Glove.md
        ├── 聊一下Word2vec-模型篇.md
        ├── 聊一下Word2vec-细节篇.md
        ├── 聊一下Word2vec-训练优化篇.md
        ├── 词向量.md
        └── 词向量资源总结.md