gitextract_q82io2no/ ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── 1-bug-report.yml │ │ ├── 2-feature-request.yml │ │ ├── 3-documentation-improve.yml │ │ └── config.yml │ └── pull_request_template.md ├── .gitignore ├── .pre-commit-config.yaml ├── .readthedocs.yaml ├── LICENSE ├── Makefile ├── README.md ├── contribution/ │ └── CONTRIBUTING.md ├── dataverse/ │ ├── README.md │ ├── __init__.py │ ├── api/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── cli.py │ │ └── emr.py │ ├── config/ │ │ ├── README.md │ │ ├── __init__.py │ │ └── interface.py │ ├── etl/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── __sample/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── ducky.py │ │ │ └── github.py │ │ ├── bias/ │ │ │ ├── README.md │ │ │ └── __init__.py │ │ ├── cleaning/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── char.py │ │ │ ├── document.py │ │ │ ├── html.py │ │ │ ├── korean.py │ │ │ ├── length.py │ │ │ ├── number.py │ │ │ ├── table.py │ │ │ └── unicode.py │ │ ├── data_ingestion/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── arrow.py │ │ │ ├── common_crawl.py │ │ │ ├── csv.py │ │ │ ├── cultura_x.py │ │ │ ├── huggingface.py │ │ │ ├── parquet.py │ │ │ ├── red_pajama.py │ │ │ ├── slim_pajama.py │ │ │ └── test.py │ │ ├── data_save/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── aws.py │ │ │ ├── huggingface.py │ │ │ └── parquet.py │ │ ├── decontamination/ │ │ │ ├── README.md │ │ │ └── __init__.py │ │ ├── deduplication/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── common_crawl.py │ │ │ ├── exact.py │ │ │ ├── minhash.py │ │ │ └── polyglot.py │ │ ├── pii/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── card.py │ │ │ └── nin.py │ │ ├── pipeline.py │ │ ├── quality/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ └── language.py │ │ ├── registry.py │ │ ├── toxicity/ │ │ │ ├── README.md │ │ │ └── __init__.py │ │ └── utils/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── log.py │ │ ├── sampling.py │ │ └── statistics.py │ ├── lab/ │ │ ├── README.md │ │ └── __init__.py │ ├── tests/ │ │ ├── conftest.py │ │ ├── test_cleaning_accent.py │ │ ├── test_cleaning_char.py │ │ ├── test_cleaning_document.py │ │ ├── test_cleaning_html.py │ │ ├── test_cleaning_korean.py │ │ ├── test_cleaning_length.py │ │ ├── test_cleaning_number.py │ │ ├── test_cleaning_table.py │ │ ├── test_cleaning_unicode.py │ │ ├── test_deduplication_common_crawl.py │ │ ├── test_deduplication_exact.py │ │ ├── test_deduplication_minhash.py │ │ ├── test_deduplication_polyglot.py │ │ ├── test_pii_card.py │ │ └── test_pii_nin.py │ └── utils/ │ ├── README.md │ ├── __init__.py │ ├── analyze/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── pip.py │ │ └── python.py │ ├── api/ │ │ ├── README.md │ │ ├── __init__.py │ │ └── aws.py │ ├── format/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── huggingface.py │ │ └── ufl.py │ └── setting/ │ ├── README.md │ ├── __init__.py │ ├── system.py │ └── user.py ├── docs/ │ ├── Makefile │ ├── make.bat │ └── source/ │ ├── citation.rst │ ├── conf.py │ ├── config/ │ │ └── config.interface.rst │ ├── etl/ │ │ ├── etl.bias.rst │ │ ├── etl.cleaning.rst │ │ ├── etl.data_ingestion.rst │ │ ├── etl.data_save.rst │ │ ├── etl.decontamination.rst │ │ ├── etl.deduplication.rst │ │ ├── etl.pii.rst │ │ ├── etl.pipeline.rst │ │ ├── etl.quality.rst │ │ ├── etl.registry.rst │ │ ├── etl.rst │ │ ├── etl.toxicity.rst │ │ └── etl.utils.rst │ ├── index.rst │ ├── installation.rst │ ├── quickstart.rst │ └── requirements.txt ├── examples/ │ ├── README.md │ └── etl/ │ ├── ETL_01_how_to_run.ipynb │ ├── ETL_02_one_cycle.ipynb │ ├── ETL_03_create_new_etl_process.ipynb │ ├── ETL_04_add_new_etl_process.ipynb │ ├── ETL_05_test_etl_process.ipynb │ ├── ETL_06_scaleout_with_EMR.ipynb │ ├── EX_use_common_crawl_data.ipynb │ ├── EX_use_pyspark_ui.ipynb │ └── README.md ├── requirements.txt └── setup.py