gitextract_dsl5uwwk/ ├── .gitignore ├── .readthedocs.yaml ├── .vscode/ │ └── launch.json ├── LICENSE.md ├── README.md ├── README_zh-CN.md ├── configs/ │ ├── config.yaml │ ├── formula_detection.yaml │ ├── formula_recognition.yaml │ ├── layout_detection.yaml │ ├── layout_detection_layoutlmv3.yaml │ ├── layout_detection_yolo.yaml │ ├── ocr.yaml │ └── table_parsing.yaml ├── docs/ │ ├── en/ │ │ ├── .readthedocs.yaml │ │ ├── Makefile │ │ ├── algorithm/ │ │ │ ├── formula_detection.rst │ │ │ ├── formula_recognition.rst │ │ │ ├── layout_detection.rst │ │ │ ├── ocr.rst │ │ │ ├── reading_order.rst │ │ │ └── table_recognition.rst │ │ ├── conf copy.py │ │ ├── conf.bak │ │ ├── conf.py │ │ ├── evaluation/ │ │ │ ├── formula_detection.rst │ │ │ ├── formula_recognition.rst │ │ │ ├── layout_detection.rst │ │ │ ├── ocr.rst │ │ │ ├── pdf_extract.rst │ │ │ ├── reading_order.rst │ │ │ └── table_recognition.rst │ │ ├── get_started/ │ │ │ ├── installation.rst │ │ │ ├── pretrained_model.rst │ │ │ └── quickstart.rst │ │ ├── index.rst │ │ ├── make.bat │ │ ├── models/ │ │ │ └── supported.md │ │ ├── notes/ │ │ │ └── changelog.md │ │ ├── project/ │ │ │ ├── doc_translate.rst │ │ │ ├── pdf_extract.rst │ │ │ └── speed_up.rst │ │ ├── switch_language.md │ │ └── task_extend/ │ │ ├── code.rst │ │ ├── doc.rst │ │ └── evaluation.rst │ ├── requirements.txt │ └── zh_cn/ │ ├── .readthedocs.yaml │ ├── Makefile │ ├── algorithm/ │ │ ├── formula_detection.rst │ │ ├── formula_recognition.rst │ │ ├── layout_detection.rst │ │ ├── ocr.rst │ │ ├── reading_order.rst │ │ └── table_recognition.rst │ ├── conf.py │ ├── evaluation/ │ │ ├── formula_detection.rst │ │ ├── formula_recognition.rst │ │ ├── layout_detection.rst │ │ ├── ocr.rst │ │ ├── pdf_extract.rst │ │ ├── reading_order.rst │ │ └── table_recognition.rst │ ├── get_started/ │ │ ├── installation.rst │ │ ├── pretrained_model.rst │ │ └── quickstart.rst │ ├── index.rst │ ├── make.bat │ ├── models/ │ │ └── supported.md │ ├── notes/ │ │ └── changelog.md │ ├── project/ │ │ ├── doc_translate.rst │ │ ├── pdf_extract.rst │ │ └── speed_up.rst │ ├── switch_language.md │ └── task_extend/ │ ├── code.rst │ ├── doc.rst │ └── evaluation.rst ├── pdf_extract_kit/ │ ├── __init__.py │ ├── configs/ │ │ └── unimernet.yaml │ ├── dataset/ │ │ ├── __init__.py │ │ └── dataset.py │ ├── registry/ │ │ ├── __init__.py │ │ └── registry.py │ ├── tasks/ │ │ ├── __init__.py │ │ ├── base_task.py │ │ ├── formula_detection/ │ │ │ ├── __init__.py │ │ │ ├── models/ │ │ │ │ └── yolo.py │ │ │ └── task.py │ │ ├── formula_recognition/ │ │ │ ├── __init__.py │ │ │ ├── models/ │ │ │ │ └── unimernet.py │ │ │ └── task.py │ │ ├── layout_detection/ │ │ │ ├── __init__.py │ │ │ ├── models/ │ │ │ │ ├── __init__.py │ │ │ │ ├── layoutlmv3.py │ │ │ │ ├── layoutlmv3_util/ │ │ │ │ │ ├── backbone.py │ │ │ │ │ ├── beit.py │ │ │ │ │ ├── deit.py │ │ │ │ │ ├── layoutlmft/ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── data/ │ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ │ ├── cord.py │ │ │ │ │ │ │ ├── data_collator.py │ │ │ │ │ │ │ ├── funsd.py │ │ │ │ │ │ │ ├── image_utils.py │ │ │ │ │ │ │ └── xfund.py │ │ │ │ │ │ └── models/ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── layoutlmv3/ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── configuration_layoutlmv3.py │ │ │ │ │ │ ├── modeling_layoutlmv3.py │ │ │ │ │ │ ├── tokenization_layoutlmv3.py │ │ │ │ │ │ └── tokenization_layoutlmv3_fast.py │ │ │ │ │ ├── layoutlmv3_base_inference.yaml │ │ │ │ │ ├── model_init.py │ │ │ │ │ ├── rcnn_vl.py │ │ │ │ │ └── visualizer.py │ │ │ │ └── yolo.py │ │ │ └── task.py │ │ ├── ocr/ │ │ │ ├── __init__.py │ │ │ ├── models/ │ │ │ │ └── paddle_ocr.py │ │ │ └── task.py │ │ └── table_parsing/ │ │ ├── __init__.py │ │ ├── models/ │ │ │ └── struct_eqtable.py │ │ └── task.py │ ├── utils/ │ │ ├── __init__.py │ │ ├── config_loader.py │ │ ├── data_preprocess.py │ │ ├── merge_blocks_and_spans.py │ │ ├── pdf_utils.py │ │ └── visualization.py │ └── version.py ├── project/ │ └── pdf2markdown/ │ ├── README.md │ ├── configs/ │ │ └── pdf2markdown.yaml │ └── scripts/ │ ├── pdf2markdown.py │ └── run_project.py ├── pyproject.toml ├── requirements/ │ └── docs.txt ├── requirements-cpu.txt ├── requirements.txt └── scripts/ ├── formula_detection.py ├── formula_recognition.py ├── layout_detection.py ├── ocr.py ├── run_task.py └── table_parsing.py