gitextract_o5tgzk64/ ├── 3rd/ │ └── gdown.pl/ │ ├── LICENSE.txt │ ├── README.md │ └── gdown.pl ├── CPM-Generate/ │ ├── .gitignore │ ├── LICENSE │ ├── README.md │ ├── arguments.py │ ├── bpe_3w_new/ │ │ ├── chinese_vocab.model │ │ ├── chinese_vocab.vocab │ │ ├── merges.txt │ │ └── vocab.json │ ├── configure_data.py │ ├── data/ │ │ ├── Makefile │ │ ├── __init__.py │ │ ├── bert_dataset.py │ │ ├── dataset_utils.py │ │ ├── gpt2_dataset.py │ │ ├── helpers.cpp │ │ ├── indexed_dataset.py │ │ ├── samplers.py │ │ └── test/ │ │ ├── test_indexed_dataset.py │ │ └── test_preprocess_data.sh │ ├── data_utils/ │ │ ├── __init__.py │ │ ├── corpora.py │ │ ├── datasets.py │ │ ├── file_utils.py │ │ ├── lazy_loader.py │ │ ├── samplers.py │ │ ├── tf_dl.py │ │ ├── tokenization.py │ │ ├── tokenization_gpt2.py │ │ └── wordpiece.py │ ├── fp16/ │ │ ├── __init__.py │ │ ├── fp16.py │ │ ├── fp16util.py │ │ └── loss_scaler.py │ ├── generate_samples.py │ ├── model/ │ │ ├── __init__.py │ │ ├── distributed.py │ │ ├── gpt2_modeling.py │ │ ├── model.py │ │ └── modeling.py │ ├── mpu/ │ │ ├── __init__.py │ │ ├── cross_entropy.py │ │ ├── data.py │ │ ├── grads.py │ │ ├── initialize.py │ │ ├── layers.py │ │ ├── mappings.py │ │ ├── random.py │ │ ├── tests/ │ │ │ ├── __init__.py │ │ │ ├── commons.py │ │ │ ├── test_cross_entropy.py │ │ │ ├── test_data.py │ │ │ ├── test_initialize.py │ │ │ ├── test_layers.py │ │ │ └── test_random.py │ │ ├── transformer.py │ │ └── utils.py │ ├── requirements.txt │ ├── scripts/ │ │ └── generate_text.sh │ └── utils.py ├── ChineseAiDungeonColabDemo.ipynb ├── LICENSE ├── finetune.ipynb ├── labeled_data/ │ ├── advanture_translated/ │ │ ├── process_data.ipynb │ │ ├── processed_translated_story.txt │ │ ├── processed_translated_story_valid.txt │ │ ├── text_advanture_trans.txt │ │ ├── train_adventures_valid_translated.txt │ │ ├── truncated_advanture_train.json │ │ ├── truncated_advanture_valid.json │ │ └── valid_advantures_valid_translated.txt │ ├── raw_data/ │ │ ├── Jinyong/ │ │ │ ├── 书剑恩仇录.txt │ │ │ ├── 侠客行.txt │ │ │ ├── 倚天屠龙记.txt │ │ │ ├── 天龙八部.txt │ │ │ ├── 射雕英雄传.txt │ │ │ ├── 白马啸西风.txt │ │ │ ├── 碧血剑.txt │ │ │ ├── 神雕侠侣.txt │ │ │ ├── 笑傲江湖.txt │ │ │ ├── 越女剑.txt │ │ │ ├── 连城诀.txt │ │ │ ├── 雪山飞狐.txt │ │ │ ├── 飞狐外传.txt │ │ │ ├── 鸳鸯刀.txt │ │ │ └── 鹿鼎记.txt │ │ └── 邪气凛然.txt │ ├── 一次冒险.txt │ ├── 我从来都不主动.txt │ ├── 盗墓实录.txt │ └── 邪气凛然.txt ├── readme.md ├── requirements.txt ├── tf2gpt/ │ ├── .gitignore │ ├── README.md │ ├── loading.ipynb │ ├── model.py │ ├── predict.ipynb │ ├── test.ipynb │ ├── train.ipynb │ └── vocab.txt ├── utils/ │ ├── gpt2_tokenizer.py │ ├── progress_bar.py │ ├── story_helper.py │ └── story_util.py └── 标注.ipynb