gitextract_i_vpdwyb/ ├── Pytorch/ │ ├── B站-Pytorch与深度学习-代码/ │ │ ├── minist.py │ │ ├── mnist_data/ │ │ │ ├── test.txt │ │ │ └── train.txt │ │ └── 线性回归/ │ │ ├── .idea/ │ │ │ ├── inspectionProfiles/ │ │ │ │ └── profiles_settings.xml │ │ │ ├── misc.xml │ │ │ ├── modules.xml │ │ │ ├── workspace.xml │ │ │ └── 线性回归.iml │ │ ├── .ipynb_checkpoints/ │ │ │ └── house_price_predict-checkpoint.ipynb │ │ ├── dasou_mlp.py │ │ ├── sigmoid.csv │ │ └── sigmoid.py │ ├── Pytorch中mask是如何实现的代码版本1-阅读文本相似度模型.md │ ├── Pytorch修改ESIM代码中mask矩阵查看效果-效果一般.md │ ├── README.md │ ├── pytorch处理文本数据代码版本1-处理文本相似度数据.md │ ├── pytorch处理文本数据代码版本2-处理文本相似度数据.md │ └── pytorch对text数据的预处理-综述.md ├── README.md ├── 推荐/ │ ├── FM.md │ ├── WDL/ │ │ ├── WDL 在贝壳推荐场景的实践.xmind │ │ ├── WDL在贝壳中的应用实践总结.md │ │ └── WDl.md │ ├── deepfm.md │ └── 推荐资源更新.md ├── 搜索/ │ ├── 倒排索引基本概念.md │ └── 搜索资源总结-持续更新.md └── 深度学习自然语言处理/ ├── Bert/ │ ├── ALBERT-更小更少但并不快.md │ ├── Bert各种后续预训练模型-预训练模型的改进.md │ ├── Bert如何融入知识一-百度和清华ERINE.md │ ├── Bert如何融入知识二-Bert融合知识图谱.md │ ├── Bert的可视化-Bert每一层都学到了什么.md │ ├── Bert资源总结.md │ ├── FastBert.md │ ├── Pytorch代码分析-如何让Bert在finetune小数据集时更“稳”一点.md │ ├── RoBERTa.md │ ├── UniLM.md │ ├── XLNET.md │ ├── tBERT-BERT融合主题模型.md │ ├── 为什么Bert做不好无监督语义匹配.md │ ├── 如何在脱敏数据中使用BERT等预训练模型.md │ └── 解决老大难问题-如何一行代码带你随心所欲重新初始化bert的某些参数(附Pytorch代码).md ├── Transformer/ │ ├── 3分钟从零解读Transformer的Encoder.md │ ├── BN踩坑记--谈一下Batch Normalization的优缺点和适用场景.md │ ├── NLP任务中-layer-norm比BatchNorm好在哪里.md │ ├── Transformer的并行化.md │ ├── Transformer面试题全部答案解析合辑.md │ ├── VIT-如何将Transformer更好的应用到CV领域.md │ ├── transformer-bert资源总结.md │ ├── transformer资源总结.md │ ├── 原版Transformer的位置编码究竟有没有包含相对位置信息.md │ ├── 史上最全Transformer面试题.md │ ├── 答案合辑.md │ ├── 答案解析(1)—史上最全Transformer面试题:灵魂20问帮你彻底搞定Transformer.md │ ├── 谈一下相对位置编码.md │ └── 谈一谈Decoder模块.md ├── 关键词提取/ │ ├── README.md │ ├── 中文分词/ │ │ └── 基于词典的正向最大匹配和逆向最大匹配中文分词.md │ ├── 关键词提取方法综述.md │ ├── 关键词提取资源总结.md │ └── 实体库构建:大规模离线新词实体挖掘.md ├── 其他/ │ ├── 20201210一周技术问题答疑汇总.md │ └── RNN的梯度消失有什么与众不同的地方.md ├── 句向量/ │ ├── README.md │ └── 句向量模型综述.md ├── 命名体识别/ │ ├── FLAT-Transformer.md │ ├── HMM_CRF.md │ ├── README.md │ ├── TNER-复旦为什么TRM在NER上效果差.md │ ├── autoner.md │ ├── 命名体识别资源梳理(代码+博客讲解).md │ ├── 工业级命名体识别的做法.md │ └── 词典匹配+模型预测-实体识别两大法宝.md ├── 多模态/ │ ├── 复盘多模态需要解决的6个问题.md │ ├── 多模态中各种Fusion方式汇总.md │ ├── 多模态之ViLBERT:双流网络,各自为王.md │ ├── 多模态资源汇总.md │ ├── 如何将多模态数据融入到BERT架构中-多模态BERT的两类预训练任务.md │ ├── 层次体系的构建-多模态解析.md │ ├── 层次分类体系的必要性-多模态讲解系列.md │ └── 文本和图像特征表示模块详解-多模态讲解系列.md ├── 对比学习/ │ └── Moco1论文解析.md ├── 文本分类/ │ ├── ACL2020-多任务负监督方式增加CLS表达差异性.md │ ├── CNN文本分类解读.md │ ├── LCM-缓解标签不独立以及标注错误的问题.md │ ├── README.md │ ├── UDA.md │ ├── 关键词信息如何融入到文本分类任务中.md │ ├── 半监督入门思想之伪标签.md │ ├── 只使用标签名称就可以文本分类.md │ ├── 在文本分类上微调Bert.md │ └── 文本分类资源总结.md ├── 文本匹配和文本相似度/ │ ├── DSSM论文-公司实战文章.md │ ├── ESIM.md │ ├── SIMCSE论文解析.md │ ├── bert白化简单的梳理.md │ ├── src/ │ │ ├── ESIM-attention/ │ │ │ ├── .idea/ │ │ │ │ ├── ESIM-attention.iml │ │ │ │ ├── inspectionProfiles/ │ │ │ │ │ └── profiles_settings.xml │ │ │ │ ├── misc.xml │ │ │ │ ├── modules.xml │ │ │ │ └── workspace.xml │ │ │ ├── ESIM代码解读.md │ │ │ └── process.py │ │ └── models.py │ ├── 五千字全面梳理文本相似度和文本匹配模型.md │ ├── 聊一下孪生网络和DSSM的混淆点以及向量召回的一个细节.md │ └── 阿里RE2-将残差连接和文本匹配模型融合.md ├── 文本纠错/ │ └── 文本纠错资源总结.md ├── 机器翻译/ │ ├── OpenNMT-py/ │ │ ├── .gitignore │ │ ├── .travis.yml │ │ ├── CHANGELOG.md │ │ ├── CONTRIBUTING.md │ │ ├── LICENSE.md │ │ ├── README.md │ │ ├── README_old.md │ │ ├── available_models/ │ │ │ └── example.conf.json │ │ ├── config/ │ │ │ ├── config-rnn-summarization.yml │ │ │ ├── config-transformer-base-1GPU.yml │ │ │ └── config-transformer-base-4GPU.yml │ │ ├── docs/ │ │ │ ├── Makefile │ │ │ ├── requirements.txt │ │ │ └── source/ │ │ │ ├── CONTRIBUTING.md │ │ │ ├── FAQ.md │ │ │ ├── Library.ipynb │ │ │ ├── Library.md │ │ │ ├── Summarization.md │ │ │ ├── _static/ │ │ │ │ └── theme_overrides.css │ │ │ ├── conf.py │ │ │ ├── examples.rst │ │ │ ├── extended.md │ │ │ ├── im2text.md │ │ │ ├── index.md │ │ │ ├── index.rst │ │ │ ├── main.md │ │ │ ├── modules.rst │ │ │ ├── onmt.inputters.rst │ │ │ ├── onmt.modules.rst │ │ │ ├── onmt.rst │ │ │ ├── onmt.translate.translation_server.rst │ │ │ ├── onmt.translation.rst │ │ │ ├── options/ │ │ │ │ ├── preprocess.rst │ │ │ │ ├── server.rst │ │ │ │ ├── train.rst │ │ │ │ └── translate.rst │ │ │ ├── quickstart.md │ │ │ ├── ref.rst │ │ │ ├── refs.bib │ │ │ ├── speech2text.md │ │ │ └── vid2text.rst │ │ ├── floyd.yml │ │ ├── floyd_requirements.txt │ │ ├── github_deploy_key_opennmt_opennmt_py.enc │ │ ├── onmt/ │ │ │ ├── __init__.py │ │ │ ├── bin/ │ │ │ │ ├── __init__.py │ │ │ │ ├── average_models.py │ │ │ │ ├── preprocess.py │ │ │ │ ├── server.py │ │ │ │ ├── train.py │ │ │ │ └── translate.py │ │ │ ├── decoders/ │ │ │ │ ├── __init__.py │ │ │ │ ├── cnn_decoder.py │ │ │ │ ├── decoder.py │ │ │ │ ├── ensemble.py │ │ │ │ └── transformer.py │ │ │ ├── encoders/ │ │ │ │ ├── __init__.py │ │ │ │ ├── audio_encoder.py │ │ │ │ ├── cnn_encoder.py │ │ │ │ ├── encoder.py │ │ │ │ ├── image_encoder.py │ │ │ │ ├── mean_encoder.py │ │ │ │ ├── rnn_encoder.py │ │ │ │ └── transformer.py │ │ │ ├── inputters/ │ │ │ │ ├── __init__.py │ │ │ │ ├── audio_dataset.py │ │ │ │ ├── datareader_base.py │ │ │ │ ├── dataset_base.py │ │ │ │ ├── image_dataset.py │ │ │ │ ├── inputter.py │ │ │ │ ├── text_dataset.py │ │ │ │ └── vec_dataset.py │ │ │ ├── model_builder.py │ │ │ ├── models/ │ │ │ │ ├── __init__.py │ │ │ │ ├── model.py │ │ │ │ ├── model_saver.py │ │ │ │ ├── sru.py │ │ │ │ └── stacked_rnn.py │ │ │ ├── modules/ │ │ │ │ ├── __init__.py │ │ │ │ ├── average_attn.py │ │ │ │ ├── conv_multi_step_attention.py │ │ │ │ ├── copy_generator.py │ │ │ │ ├── embeddings.py │ │ │ │ ├── gate.py │ │ │ │ ├── global_attention.py │ │ │ │ ├── multi_headed_attn.py │ │ │ │ ├── position_ffn.py │ │ │ │ ├── sparse_activations.py │ │ │ │ ├── sparse_losses.py │ │ │ │ ├── structured_attention.py │ │ │ │ ├── util_class.py │ │ │ │ └── weight_norm.py │ │ │ ├── opts.py │ │ │ ├── train_single.py │ │ │ ├── trainer.py │ │ │ ├── translate/ │ │ │ │ ├── __init__.py │ │ │ │ ├── beam_search.py │ │ │ │ ├── decode_strategy.py │ │ │ │ ├── greedy_search.py │ │ │ │ ├── penalties.py │ │ │ │ ├── process_zh.py │ │ │ │ ├── translation.py │ │ │ │ ├── translation_server.py │ │ │ │ └── translator.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ ├── alignment.py │ │ │ ├── cnn_factory.py │ │ │ ├── distributed.py │ │ │ ├── earlystopping.py │ │ │ ├── logging.py │ │ │ ├── loss.py │ │ │ ├── misc.py │ │ │ ├── optimizers.py │ │ │ ├── parse.py │ │ │ ├── report_manager.py │ │ │ ├── rnn_factory.py │ │ │ └── statistics.py │ │ ├── preprocess.py │ │ ├── process_ori_data.py │ │ ├── requirements.opt.txt │ │ ├── server.py │ │ ├── setup.py │ │ ├── tools/ │ │ │ ├── README.md │ │ │ ├── apply_bpe.py │ │ │ ├── average_models.py │ │ │ ├── bpe_pipeline.sh │ │ │ ├── create_vocabulary.py │ │ │ ├── detokenize.perl │ │ │ ├── embeddings_to_torch.py │ │ │ ├── extract_embeddings.py │ │ │ ├── learn_bpe.py │ │ │ ├── multi-bleu-detok.perl │ │ │ ├── nonbreaking_prefixes/ │ │ │ │ ├── README.txt │ │ │ │ ├── nonbreaking_prefix.ca │ │ │ │ ├── nonbreaking_prefix.cs │ │ │ │ ├── nonbreaking_prefix.de │ │ │ │ ├── nonbreaking_prefix.el │ │ │ │ ├── nonbreaking_prefix.en │ │ │ │ ├── nonbreaking_prefix.es │ │ │ │ ├── nonbreaking_prefix.fi │ │ │ │ ├── nonbreaking_prefix.fr │ │ │ │ ├── nonbreaking_prefix.ga │ │ │ │ ├── nonbreaking_prefix.hu │ │ │ │ ├── nonbreaking_prefix.is │ │ │ │ ├── nonbreaking_prefix.it │ │ │ │ ├── nonbreaking_prefix.lt │ │ │ │ ├── nonbreaking_prefix.lv │ │ │ │ ├── nonbreaking_prefix.nl │ │ │ │ ├── nonbreaking_prefix.pl │ │ │ │ ├── nonbreaking_prefix.ro │ │ │ │ ├── nonbreaking_prefix.ru │ │ │ │ ├── nonbreaking_prefix.sk │ │ │ │ ├── nonbreaking_prefix.sl │ │ │ │ ├── nonbreaking_prefix.sv │ │ │ │ ├── nonbreaking_prefix.ta │ │ │ │ ├── nonbreaking_prefix.yue │ │ │ │ └── nonbreaking_prefix.zh │ │ │ ├── release_model.py │ │ │ ├── test_rouge.py │ │ │ ├── tokenizer.perl │ │ │ └── vid_feature_extractor.py │ │ ├── train.py │ │ └── translate.py │ ├── README.md │ └── bpe-subword论文的我的阅读总结.md ├── 模型蒸馏/ │ ├── BERT知识蒸馏代码解析-如何写好损失函数.md │ ├── Bert蒸馏到简单网络lstm.md │ ├── PKD-Bert基于多层的知识蒸馏方式.md │ ├── Theseus-模块压缩交替训练.md │ ├── bert2textcnn模型蒸馏.md │ ├── tinybert-全方位蒸馏.md │ ├── 什么是知识蒸馏.md │ └── 知识蒸馏综述万字长文.md ├── 论文解读/ │ └── 模型训练需不需要将损失降低为零.md └── 词向量/ ├── CBOW和skip-gram相较而言,彼此相对适合哪些场景.md ├── Fasttext解读(1).md ├── Fasttext解读(2).md ├── README.md ├── Word2vec为什么需要二次采样?.md ├── Word2vec模型究竟是如何获得词向量的.md ├── Word2vec的负采样.md ├── Word2vec训练参数的选定.md ├── word2vec两种优化方式的联系和区别.md ├── 史上最全词向量面试题梳理.md ├── 聊一下Glove.md ├── 聊一下Word2vec-模型篇.md ├── 聊一下Word2vec-细节篇.md ├── 聊一下Word2vec-训练优化篇.md ├── 词向量.md └── 词向量资源总结.md