gitextract__veioo5c/ ├── .gitattributes ├── .github/ │ └── workflows/ │ ├── npm-publish-github-packages.yml │ ├── tokenizer-ts-pr-build.yml │ └── tokenizer-ts-release.yml ├── .gitignore ├── CODE_OF_CONDUCT.md ├── CONTRIBUTING.md ├── LICENSE ├── README.md ├── SECURITY.md ├── SUPPORT.md ├── Tokenizer_C#/ │ ├── .editorconfig │ ├── PerfBenchmark/ │ │ ├── PerfBenchmark.csproj │ │ ├── Program.cs │ │ └── data/ │ │ └── words.txt │ ├── Tokenizer/ │ │ ├── Program.cs │ │ ├── Properties/ │ │ │ └── launchSettings.json │ │ └── Tokenizer.csproj │ ├── Tokenizer.sln │ ├── TokenizerLib/ │ │ ├── ITokenizer.cs │ │ ├── TikTokenizer.cs │ │ ├── TokenizerBuilder.cs │ │ ├── TokenizerLib.csproj │ │ └── Utils/ │ │ ├── BytePairComparer.cs │ │ ├── BytePairEncoder.cs │ │ ├── LRUCache.cs │ │ ├── Properties/ │ │ │ └── launchSettings.json │ │ └── Range.cs │ ├── TokenizerTest/ │ │ ├── TikTokenizerUnitTest.cs │ │ ├── TokenizerTest.csproj │ │ └── testData/ │ │ ├── lib.rs.txt │ │ ├── tokens.json │ │ ├── tokens_gpt2.json │ │ ├── tokens_p50k_base.json │ │ ├── tokens_p50k_edit.json │ │ └── tokens_r50k_base.json │ ├── build/ │ │ ├── IgnoreSignList.txt │ │ ├── azure-pipelines-pr.yml │ │ ├── azure-pipelines-release.yml │ │ └── public.snk │ └── nuget.config └── tokenizer_ts/ ├── .eslintrc.js ├── .npmignore ├── LICENSE ├── README.md ├── package.json ├── perf/ │ ├── .gitignore │ ├── benchmark-folder.js │ └── notebook.ipynb ├── src/ │ ├── bytePairEncode.ts │ ├── index.ts │ ├── lru.ts │ ├── textEncoder.ts │ ├── tikTokenizer.ts │ └── tokenizerBuilder.ts ├── test/ │ ├── binaryMap.test.ts │ ├── lru.test.ts │ ├── testdata/ │ │ ├── lib.rs.txt │ │ ├── tokens_gpt2.json │ │ ├── tokens_gpt_3.5_turbo.json │ │ ├── tokens_gpt_4o.json │ │ ├── tokens_p50k_base.json │ │ ├── tokens_p50k_edit.json │ │ └── tokens_r50k_base.json │ ├── tikTokenizer.test.ts │ ├── tikTokenizerGpt2.test.ts │ ├── tikTokenizerGpt4o.test.ts │ ├── tikTokenizer_p50k_base.test.ts │ ├── tikTokenizer_p50k_edit.test.ts │ └── tikTokenizer_r50k_base.test.ts └── tsconfig.json