gitextract_4xv94fs_/ ├── .cursorignore ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── bug_report.yaml │ │ └── feature_request.yaml │ ├── PULL_REQUEST_TEMPLATE/ │ │ └── pr_form.yml │ ├── PULL_REQUEST_TEMPLATE.md │ ├── dependabot.yml │ ├── labels.yml │ ├── release-drafter.yml │ └── workflows/ │ ├── codeql.yml │ ├── docs.yml │ ├── labeler.yml │ ├── lint.yml │ ├── pr-lint.yml │ ├── publish-to-pypi.yml │ └── test.yml ├── .gitignore ├── .pre-commit-config.yaml ├── LICENSE ├── README.md ├── babeldoc/ │ ├── __init__.py │ ├── assets/ │ │ ├── assets.py │ │ └── embedding_assets_metadata.py │ ├── asynchronize/ │ │ └── __init__.py │ ├── babeldoc_exception/ │ │ ├── BabelDOCException.py │ │ └── __init__.py │ ├── const.py │ ├── docvision/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── base_doclayout.py │ │ ├── doclayout.py │ │ ├── rpc_doclayout.py │ │ ├── rpc_doclayout2.py │ │ ├── rpc_doclayout3.py │ │ ├── rpc_doclayout4.py │ │ ├── rpc_doclayout5.py │ │ ├── rpc_doclayout6.py │ │ ├── rpc_doclayout7.py │ │ └── table_detection/ │ │ └── rapidocr.py │ ├── format/ │ │ ├── __init__.py │ │ └── pdf/ │ │ ├── __init__.py │ │ ├── babelpdf/ │ │ │ ├── base14.py │ │ │ ├── cidfont.py │ │ │ ├── cmap.py │ │ │ ├── encoding.py │ │ │ ├── type3.py │ │ │ ├── utils.py │ │ │ └── win_core.py │ │ ├── converter.py │ │ ├── document_il/ │ │ │ ├── __init__.py │ │ │ ├── backend/ │ │ │ │ ├── __init__.py │ │ │ │ └── pdf_creater.py │ │ │ ├── frontend/ │ │ │ │ ├── __init__.py │ │ │ │ └── il_creater.py │ │ │ ├── il_version_1.py │ │ │ ├── il_version_1.rnc │ │ │ ├── il_version_1.rng │ │ │ ├── il_version_1.xsd │ │ │ ├── midend/ │ │ │ │ ├── __init__.py │ │ │ │ ├── add_debug_information.py │ │ │ │ ├── automatic_term_extractor.py │ │ │ │ ├── detect_scanned_file.py │ │ │ │ ├── il_translator.py │ │ │ │ ├── il_translator_llm_only.py │ │ │ │ ├── layout_parser.py │ │ │ │ ├── paragraph_finder.py │ │ │ │ ├── remove_descent.py │ │ │ │ ├── styles_and_formulas.py │ │ │ │ ├── table_parser.py │ │ │ │ └── typesetting.py │ │ │ ├── utils/ │ │ │ │ ├── __init__.py │ │ │ │ ├── extract_char.py │ │ │ │ ├── fontmap.py │ │ │ │ ├── formular_helper.py │ │ │ │ ├── layout_helper.py │ │ │ │ ├── matrix_helper.py │ │ │ │ ├── mupdf_helper.py │ │ │ │ ├── paragraph_helper.py │ │ │ │ ├── spatial_analyzer.py │ │ │ │ ├── style_helper.py │ │ │ │ └── zstd_helper.py │ │ │ └── xml_converter.py │ │ ├── high_level.py │ │ ├── pdfinterp.py │ │ ├── result_merger.py │ │ ├── split_manager.py │ │ └── translation_config.py │ ├── glossary.py │ ├── main.py │ ├── pdfminer/ │ │ ├── LICENSE │ │ ├── __init__.py │ │ ├── _saslprep.py │ │ ├── arcfour.py │ │ ├── ascii85.py │ │ ├── casting.py │ │ ├── ccitt.py │ │ ├── cmap/ │ │ │ └── README.txt │ │ ├── cmapdb.py │ │ ├── converter.py │ │ ├── data_structures.py │ │ ├── encodingdb.py │ │ ├── fontmetrics.py │ │ ├── glyphlist.py │ │ ├── high_level.py │ │ ├── image.py │ │ ├── jbig2.py │ │ ├── latin_enc.py │ │ ├── layout.py │ │ ├── lzw.py │ │ ├── pdfcolor.py │ │ ├── pdfdevice.py │ │ ├── pdfdocument.py │ │ ├── pdfexceptions.py │ │ ├── pdffont.py │ │ ├── pdfinterp.py │ │ ├── pdfpage.py │ │ ├── pdfparser.py │ │ ├── pdftypes.py │ │ ├── psexceptions.py │ │ ├── psparser.py │ │ ├── py.typed │ │ ├── runlength.py │ │ ├── settings.py │ │ └── utils.py │ ├── progress_monitor.py │ ├── tools/ │ │ ├── generate_cmap_metadata.py │ │ ├── generate_font_metadata.py │ │ ├── italic_assistance.py │ │ └── italic_recognize_tool.py │ ├── translator/ │ │ ├── __init__.py │ │ ├── cache.py │ │ └── translator.py │ └── utils/ │ ├── __init__.py │ ├── atomic_integer.py │ ├── memory.py │ └── priority_thread_pool_executor.py ├── docs/ │ ├── CODE_OF_CONDUCT.md │ ├── CONTRIBUTING.md │ ├── CONTRIBUTOR_REWARD.md │ ├── ImplementationDetails/ │ │ ├── AsyncTranslate/ │ │ │ └── AsyncTranslate.md │ │ ├── ILTranslator/ │ │ │ └── ILTranslator.md │ │ ├── PDFCreation/ │ │ │ └── PDFCreation.md │ │ ├── PDFParsing/ │ │ │ └── PDFParsing.md │ │ ├── ParagraphFinding/ │ │ │ └── ParagraphFinding.md │ │ ├── README.md │ │ ├── StylesAndFormulas/ │ │ │ └── StylesAndFormulas.md │ │ └── Typesetting/ │ │ └── Typesetting.md │ ├── README.md │ ├── deploy.sh │ ├── example/ │ │ └── demo_glossary.csv │ ├── index.md │ ├── intro-to-pdf-object.md │ ├── requirements.txt │ └── supported_languages.md ├── mkdocs.yml ├── pyproject.toml └── tests/ └── test_translation_cache_cleanup.py