gitextract_71vcekvo/ ├── License ├── Readme.md ├── code/ │ ├── Attentive_BiLSTM/ │ │ ├── HAN.py │ │ ├── Word_Freqency_Mapper.py │ │ ├── auxilary_inputs_ner/ │ │ │ ├── ctc_pred.tsv │ │ │ └── segmenter_pred/ │ │ │ ├── segmenter_pred_dev.txt │ │ │ ├── segmenter_pred_test.txt │ │ │ └── segmenter_pred_train.txt │ │ ├── config_so.py │ │ ├── conlleval_py.py │ │ ├── evaluation/ │ │ │ └── conlleval │ │ ├── gaussian_binner.py │ │ ├── loader_so.py │ │ ├── make_segment_pred.py │ │ ├── make_vocab.py │ │ ├── model.py │ │ ├── other_files/ │ │ │ ├── Freq_Vector.txt │ │ │ ├── oov_words.txt │ │ │ └── vocab.tsv │ │ ├── print_result.py │ │ ├── sorted_entity_list_by_count_all.json │ │ ├── test_char_embeddings.py │ │ ├── test_script.py │ │ ├── tolatex.py │ │ ├── train_so.py │ │ └── utils_so.py │ ├── BERT_NER/ │ │ ├── E2E_SoftNER.py │ │ ├── Freq_Vector.txt │ │ ├── softner_ner_predict_from_file.py │ │ ├── softner_segmenter_preditct_from_file.py │ │ ├── utils_ctc/ │ │ │ ├── binning.py │ │ │ ├── config_ctc.py │ │ │ ├── features.py │ │ │ ├── model.py │ │ │ ├── prediction_ctc.py │ │ │ └── rules.py │ │ ├── utils_ner.py │ │ ├── utils_preprocess/ │ │ │ ├── __init__.py │ │ │ ├── anntoconll.py │ │ │ ├── fix_char_encoding.py │ │ │ ├── format_markdown.py │ │ │ ├── map_text_to_char.py │ │ │ ├── sentencesplit.py │ │ │ ├── ssplit.py │ │ │ ├── stokenizer.py │ │ │ ├── stokenizer_base_rules.py │ │ │ └── tokenize_base_rules.py │ │ ├── utils_seg.py │ │ └── xml_filted_body.txt │ ├── DataReader/ │ │ ├── Posts_Small.xml │ │ ├── loader_so.py │ │ ├── read_so_post_info.py │ │ ├── temp_xml.xml │ │ └── text_files/ │ │ ├── 13347179.txt │ │ ├── 13352832.txt │ │ └── 1528_1533.txt │ ├── Readme.md │ └── SOTokenizer/ │ ├── ark_twokenize.py │ └── stokenizer.py └── resources/ ├── annotated_ner_data/ │ ├── GitHub/ │ │ └── GH_test_set.txt │ ├── Readme.md │ └── StackOverflow/ │ ├── dev.txt │ ├── test.txt │ ├── train.txt │ └── train_merged_labels.txt └── pretrained_word_vectors/ └── Readme.md