gitextract_2awl829e/ ├── .github/ │ └── FUNDING.yml ├── .gitignore ├── .gitmodules ├── DEBIAN/ │ ├── conffiles │ ├── control │ ├── postinst │ └── prerm ├── Dockerfile ├── LICENSE ├── build-deb ├── docker-compose.test.yml ├── docker-compose.ubuntu.test.yml ├── docker-entrypoint.sh ├── etc/ │ ├── opensemanticsearch/ │ │ ├── blacklist/ │ │ │ ├── blacklist-url │ │ │ ├── blacklist-url-prefix │ │ │ ├── blacklist-url-regex │ │ │ ├── blacklist-url-suffix │ │ │ ├── enhance_extract_law/ │ │ │ │ └── blacklist-lawcode-if-no-clause │ │ │ ├── enhance_zip/ │ │ │ │ ├── blacklist-contenttype │ │ │ │ ├── blacklist-contenttype-prefix │ │ │ │ ├── blacklist-contenttype-regex │ │ │ │ ├── blacklist-contenttype-suffix │ │ │ │ ├── whitelist-contenttype │ │ │ │ ├── whitelist-contenttype-prefix │ │ │ │ ├── whitelist-contenttype-regex │ │ │ │ └── whitelist-contenttype-suffix │ │ │ ├── textanalysis/ │ │ │ │ ├── blacklist-fieldname │ │ │ │ ├── blacklist-fieldname-prefix │ │ │ │ └── blacklist-fieldname-suffix │ │ │ ├── whitelist-url │ │ │ ├── whitelist-url-prefix │ │ │ ├── whitelist-url-regex │ │ │ └── whitelist-url-suffix │ │ ├── connector-files │ │ ├── connector-web │ │ ├── enhancer-rdf │ │ ├── etl │ │ ├── facets │ │ ├── filemonitoring/ │ │ │ └── files │ │ ├── ocr/ │ │ │ └── dictionary.txt │ │ ├── regex/ │ │ │ ├── email.tsv │ │ │ ├── iban.tsv │ │ │ └── phone.tsv │ │ └── task_priorities │ └── systemd/ │ └── system/ │ ├── opensemanticetl-filemonitoring.service │ └── opensemanticetl.service └── src/ └── opensemanticetl/ ├── __init__.py ├── clean_title.py ├── enhance_annotations.py ├── enhance_contenttype_group.py ├── enhance_csv.py ├── enhance_detect_language_tika_server.py ├── enhance_entity_linking.py ├── enhance_extract_email.py ├── enhance_extract_hashtags.py ├── enhance_extract_law.py ├── enhance_extract_money.py ├── enhance_extract_phone.py ├── enhance_extract_text_tika_server.py ├── enhance_file_mtime.py ├── enhance_file_size.py ├── enhance_html.py ├── enhance_mapping_id.py ├── enhance_mimetype.py ├── enhance_multilingual.py ├── enhance_ner_spacy.py ├── enhance_ner_stanford.py ├── enhance_ocr.py ├── enhance_path.py ├── enhance_pdf_ocr.py ├── enhance_pdf_page.py ├── enhance_pdf_page_preview.py ├── enhance_pst.py ├── enhance_rdf.py ├── enhance_rdf_annotations_by_http_request.py ├── enhance_regex.py ├── enhance_sentence_segmentation.py ├── enhance_warc.py ├── enhance_xml.py ├── enhance_xmp.py ├── enhance_zip.py ├── etl.py ├── etl_delete.py ├── etl_enrich.py ├── etl_file.py ├── etl_filedirectory.py ├── etl_filemonitoring.py ├── etl_hypothesis.py ├── etl_plugin_core.py ├── etl_rss.py ├── etl_sitemap.py ├── etl_sparql.py ├── etl_twitter_scraper.py ├── etl_web.py ├── etl_web_crawl.py ├── export_elasticsearch.py ├── export_json.py ├── export_neo4j.py ├── export_print.py ├── export_queue_files.py ├── export_solr.py ├── filter_blacklist.py ├── filter_file_not_modified.py ├── move_indexed_file.py ├── requirements.txt ├── tasks.py ├── test_enhance_detect_language_tika_server.py ├── test_enhance_extract_email.py ├── test_enhance_extract_law.py ├── test_enhance_extract_money.py ├── test_enhance_extract_text_tika_server.py ├── test_enhance_mapping_id.py ├── test_enhance_ner_spacy.py ├── test_enhance_path.py ├── test_enhance_pdf_ocr.py ├── test_enhance_regex.py ├── test_enhance_warc.py ├── test_etl_file.py ├── test_move_indexed_files.py └── testdata/ ├── README.md ├── example.warc ├── run_integrationtests.sh └── run_tests.sh