gitextract_h_6popb3/ ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── bug_report.md │ │ └── feature_request.md │ ├── dependabot.yml │ ├── pull_request_template.md │ └── workflows/ │ ├── cifuzz.yml │ ├── cmake.yml │ ├── cross_build.yml │ ├── requirements/ │ │ ├── base.in │ │ ├── base.txt │ │ ├── cibuildwheel.in │ │ └── cibuildwheel.txt │ └── wheel.yml ├── .gitignore ├── CMakeLists.txt ├── CONTRIBUTING.md ├── LICENSE ├── README.md ├── VERSION.txt ├── cmake/ │ └── ios.toolchain.cmake ├── config.h.in ├── contrib/ │ └── docker/ │ ├── Dockerfile │ └── README.md ├── data/ │ ├── Scripts.txt │ ├── botchan.txt │ ├── extract_headers.pl │ ├── gen_spec_parser.pl │ ├── gen_unicode_scripts_code.pl │ ├── ids_denorm.tsv │ ├── ids_norm.tsv │ ├── nfc.tsv │ ├── nfc_cf.tsv │ ├── nfd.tsv │ ├── nfd_cf.tsv │ ├── nfkc.tsv │ ├── nfkc_cf.tsv │ ├── nfkd.tsv │ ├── nfkd_cf.tsv │ ├── nmt_nfkc.tsv │ ├── nmt_nfkc_cf.tsv │ └── wagahaiwa_nekodearu.txt ├── doc/ │ ├── api.md │ ├── experiments.md │ ├── normalization.md │ ├── options.md │ └── special_symbols.md ├── python/ │ ├── .gitignore │ ├── MANIFEST.in │ ├── README.md │ ├── add_new_vocab.ipynb │ ├── build_bundled.sh │ ├── build_sdist.sh │ ├── pyproject.toml │ ├── sentencepiece_python_module_example.ipynb │ ├── setup.cfg │ ├── setup.py │ ├── src/ │ │ └── sentencepiece/ │ │ ├── __init__.py │ │ ├── _version.py │ │ ├── sentencepiece.i │ │ ├── sentencepiece_model_pb2.py │ │ ├── sentencepiece_pb2.py │ │ └── sentencepiece_wrap.cxx │ └── test/ │ ├── __init__.py │ ├── botchan.txt │ ├── sentencepiece_test.py │ ├── test_ja_model.model │ └── test_model.model ├── sentencepiece.pc.in ├── src/ │ ├── CMakeLists.txt │ ├── bpe_model.cc │ ├── bpe_model.h │ ├── bpe_model_test.cc │ ├── bpe_model_trainer.cc │ ├── bpe_model_trainer.h │ ├── bpe_model_trainer_test.cc │ ├── builder.cc │ ├── builder.h │ ├── builder_test.cc │ ├── builtin_pb/ │ │ ├── sentencepiece.pb.cc │ │ ├── sentencepiece.pb.h │ │ ├── sentencepiece_model.pb.cc │ │ └── sentencepiece_model.pb.h │ ├── char_model.cc │ ├── char_model.h │ ├── char_model_test.cc │ ├── char_model_trainer.cc │ ├── char_model_trainer.h │ ├── char_model_trainer_test.cc │ ├── common.h │ ├── compile_charsmap_main.cc │ ├── error.cc │ ├── filesystem.cc │ ├── filesystem.h │ ├── filesystem_test.cc │ ├── freelist.h │ ├── freelist_test.cc │ ├── init.cc │ ├── init.h │ ├── init_test.cc │ ├── model_factory.cc │ ├── model_factory.h │ ├── model_factory_test.cc │ ├── model_interface.cc │ ├── model_interface.h │ ├── model_interface_test.cc │ ├── normalization_rule.h │ ├── normalizer.cc │ ├── normalizer.h │ ├── normalizer_test.cc │ ├── pretokenizer_for_training.cc │ ├── pretokenizer_for_training.h │ ├── pretokenizer_for_training_test.cc │ ├── sentencepiece.proto │ ├── sentencepiece_model.proto │ ├── sentencepiece_processor.cc │ ├── sentencepiece_processor.h │ ├── sentencepiece_processor_test.cc │ ├── sentencepiece_trainer.cc │ ├── sentencepiece_trainer.h │ ├── sentencepiece_trainer_test.cc │ ├── spec_parser.h │ ├── spm_decode_main.cc │ ├── spm_encode_main.cc │ ├── spm_export_vocab_main.cc │ ├── spm_normalize_main.cc │ ├── spm_train_main.cc │ ├── test_main.cc │ ├── testharness.cc │ ├── testharness.h │ ├── trainer_factory.cc │ ├── trainer_factory.h │ ├── trainer_factory_test.cc │ ├── trainer_interface.cc │ ├── trainer_interface.h │ ├── trainer_interface_test.cc │ ├── unicode_script.cc │ ├── unicode_script.h │ ├── unicode_script_map.h │ ├── unicode_script_test.cc │ ├── unigram_model.cc │ ├── unigram_model.h │ ├── unigram_model_test.cc │ ├── unigram_model_trainer.cc │ ├── unigram_model_trainer.h │ ├── unigram_model_trainer_test.cc │ ├── util.cc │ ├── util.h │ ├── util_test.cc │ ├── word_model.cc │ ├── word_model.h │ ├── word_model_test.cc │ ├── word_model_trainer.cc │ ├── word_model_trainer.h │ └── word_model_trainer_test.cc └── third_party/ ├── CMakeLists.txt ├── absl/ │ ├── LICENSE │ ├── container/ │ │ ├── btree_set.h │ │ ├── flat_hash_map.h │ │ └── flat_hash_set.h │ ├── flags/ │ │ ├── flag.cc │ │ ├── flag.h │ │ ├── parse.h │ │ ├── usage.h │ │ └── usage_config.h │ ├── log/ │ │ ├── check.h │ │ ├── globals.h │ │ ├── log.cc │ │ └── log.h │ └── strings/ │ ├── ascii.h │ ├── match.h │ ├── numbers.h │ ├── str_cat.h │ ├── str_format.h │ ├── str_join.h │ ├── str_replace.h │ ├── str_split.h │ ├── string_view.h │ └── strip.h ├── darts_clone/ │ ├── LICENSE │ └── darts.h ├── esaxx/ │ ├── LICENSE │ ├── esa.hxx │ └── sais.hxx └── protobuf-lite/ ├── LICENSE ├── arena.cc ├── arenastring.cc ├── bytestream.cc ├── coded_stream.cc ├── common.cc ├── extension_set.cc ├── generated_enum_util.cc ├── generated_message_table_driven_lite.cc ├── generated_message_util.cc ├── google/ │ └── protobuf/ │ ├── any.h │ ├── arena.h │ ├── arena_impl.h │ ├── arenastring.h │ ├── descriptor.h │ ├── extension_set.h │ ├── extension_set_inl.h │ ├── generated_enum_reflection.h │ ├── generated_enum_util.h │ ├── generated_message_table_driven.h │ ├── generated_message_table_driven_lite.h │ ├── generated_message_util.h │ ├── has_bits.h │ ├── implicit_weak_message.h │ ├── io/ │ │ ├── coded_stream.h │ │ ├── io_win32.h │ │ ├── zero_copy_stream.h │ │ ├── zero_copy_stream_impl.h │ │ └── zero_copy_stream_impl_lite.h │ ├── map.h │ ├── map_entry_lite.h │ ├── map_field_lite.h │ ├── map_type_handler.h │ ├── message_lite.h │ ├── metadata_lite.h │ ├── parse_context.h │ ├── port.h │ ├── port_def.inc │ ├── port_undef.inc │ ├── repeated_field.h │ ├── stubs/ │ │ ├── bytestream.h │ │ ├── callback.h │ │ ├── casts.h │ │ ├── common.h │ │ ├── hash.h │ │ ├── int128.h │ │ ├── logging.h │ │ ├── macros.h │ │ ├── map_util.h │ │ ├── mutex.h │ │ ├── once.h │ │ ├── platform_macros.h │ │ ├── port.h │ │ ├── status.h │ │ ├── statusor.h │ │ ├── stl_util.h │ │ ├── stringpiece.h │ │ ├── stringprintf.h │ │ ├── strutil.h │ │ └── time.h │ ├── unknown_field_set.h │ └── wire_format_lite.h ├── implicit_weak_message.cc ├── int128.cc ├── io_win32.cc ├── message_lite.cc ├── parse_context.cc ├── repeated_field.cc ├── status.cc ├── statusor.cc ├── stringpiece.cc ├── stringprintf.cc ├── structurally_valid.cc ├── strutil.cc ├── time.cc ├── wire_format_lite.cc ├── zero_copy_stream.cc ├── zero_copy_stream_impl.cc └── zero_copy_stream_impl_lite.cc