gitextract_ayw6h_qv/ ├── .github/ │ └── workflows/ │ └── codeql.yml ├── CODE_OF_CONDUCT.md ├── DomainSpecific/ │ ├── .gitignore │ ├── configs/ │ │ ├── cc_math_filter.CC-MAIN-2023-23.json │ │ ├── cc_openquestion_filter.CC-MAIN-2023-23.json │ │ ├── cc_warc_download.CC-MAIN-2023-23.json │ │ ├── cc_warc_filter.CC-MAIN-2023-23.json │ │ ├── cc_warc_to_wet.code.CC-MAIN-2023-23.json │ │ ├── cc_warc_to_wet.math.CC-MAIN-2023-23.json │ │ └── network_template.json │ ├── core/ │ │ ├── __init__.py │ │ ├── data.py │ │ ├── layer.py │ │ ├── layers/ │ │ │ ├── __init__.py │ │ │ ├── control/ │ │ │ │ ├── __init__.py │ │ │ │ ├── data_concat_layer.py │ │ │ │ ├── data_filter_layer.py │ │ │ │ ├── data_order_layer.py │ │ │ │ ├── data_partition_layer.py │ │ │ │ ├── data_sample_layer.py │ │ │ │ └── data_shuffle_layer.py │ │ │ ├── extract/ │ │ │ │ ├── __init__.py │ │ │ │ ├── build_index_layer.py │ │ │ │ ├── extract_article_layer.py │ │ │ │ └── search_index_layer.py │ │ │ ├── global_var.py │ │ │ ├── io/ │ │ │ │ ├── __init__.py │ │ │ │ ├── from_binary_file_layer.py │ │ │ │ ├── from_index_file_layer.py │ │ │ │ ├── from_jsonl_file_layer.py │ │ │ │ ├── from_line_file_layer.py │ │ │ │ ├── from_parquet_file_layer.py │ │ │ │ ├── from_warc_file_layer.py │ │ │ │ ├── from_wet_file_layer.py │ │ │ │ ├── to_binary_file_layer.py │ │ │ │ ├── to_index_file_layer.py │ │ │ │ ├── to_jsonl_file_layer.py │ │ │ │ ├── to_line_file_layer.py │ │ │ │ └── to_parquet_file_layer.py │ │ │ ├── network/ │ │ │ │ ├── __init__.py │ │ │ │ ├── download_bytes_from_blob_layer.py │ │ │ │ ├── download_bytes_from_internet_layer.py │ │ │ │ ├── download_file_from_blob_layer.py │ │ │ │ ├── download_file_from_internet_layer.py │ │ │ │ ├── download_starcoder_layer.py │ │ │ │ ├── download_url_list_layer.py │ │ │ │ ├── download_urls_from_website_layer.py │ │ │ │ ├── download_warc_file_layer.py │ │ │ │ ├── download_warc_indice_layer.py │ │ │ │ ├── upload_bytes_to_blob_layer.py │ │ │ │ └── upload_file_to_blob_layer.py │ │ │ ├── template_layer.py │ │ │ ├── transform/ │ │ │ │ ├── __init__.py │ │ │ │ ├── lsh_minhash_layer.py │ │ │ │ ├── math_filter_layer.py │ │ │ │ ├── mcq_filter_layer.py │ │ │ │ ├── minhash_tokens_layer.py │ │ │ │ ├── ngrams_layer.py │ │ │ │ ├── openquestion_filter_layer.py │ │ │ │ ├── tokenize_article_layer.py │ │ │ │ ├── warc_encode_layer.py │ │ │ │ ├── warc_filter_layer.py │ │ │ │ ├── warc_to_wet_layer.py │ │ │ │ └── wet_decode_layer.py │ │ │ └── util.py │ │ └── network.py │ ├── dependency/ │ │ ├── gpt_api.py │ │ ├── ia-hadoop-tools-jar-with-dependencies.jar │ │ ├── install.py │ │ ├── requirements.txt │ │ └── xsltml_2.0/ │ │ ├── cmarkup.xsl │ │ ├── entities.xsl │ │ ├── glayout.xsl │ │ ├── mmltex.xsl │ │ ├── scripts.xsl │ │ ├── tables.xsl │ │ └── tokens.xsl │ ├── readme.md │ ├── requirements.txt │ ├── resources/ │ │ ├── computation/ │ │ │ ├── batch_dca_eastus.yaml │ │ │ └── local.yaml │ │ ├── environment/ │ │ │ ├── amlt_sing.yaml │ │ │ └── local.yaml │ │ └── storage/ │ │ ├── llmstore.yaml │ │ └── local.yaml │ ├── sample_run.sh │ ├── submit.py │ ├── tools/ │ │ ├── __init__.py │ │ ├── submit_batch_job.py │ │ └── submit_local_job.py │ └── wrapper/ │ ├── __init__.py │ ├── interpreter.py │ ├── parser.py │ ├── runner.py │ └── utility/ │ ├── __init__.py │ ├── azure_env.py │ ├── cpu_count.py │ ├── load_yaml.py │ ├── logger.py │ └── save_yaml.py ├── GeneralDomain/ │ ├── .gitignore │ ├── README.md │ ├── pyproject.toml │ └── redstone_cc/ │ ├── __init__.py │ ├── __main__.py │ ├── algos/ │ │ ├── __init__.py │ │ ├── deduplication/ │ │ │ ├── __init__.py │ │ │ ├── minhash.py │ │ │ ├── sha1.py │ │ │ └── utils.py │ │ ├── fasttext_classifier.py │ │ ├── rule_based_filters/ │ │ │ ├── __init__.py │ │ │ ├── func/ │ │ │ │ ├── __init__.py │ │ │ │ ├── document.py │ │ │ │ ├── line.py │ │ │ │ └── repetition.py │ │ │ ├── model/ │ │ │ │ ├── __init__.py │ │ │ │ ├── document.py │ │ │ │ └── violations.py │ │ │ ├── ruleset/ │ │ │ │ ├── __init__.py │ │ │ │ ├── gopher.py │ │ │ │ └── refinedweb.py │ │ │ └── utils.py │ │ └── trafilatura_process.py │ ├── download_utils.py │ └── process.py ├── LICENSE ├── README.md ├── SECURITY.md └── SUPPORT.md