gitextract_jga75z6d/ ├── .github/ │ └── workflows/ │ └── ci.yml ├── .gitignore ├── LICENSE ├── README.md ├── _config.yml ├── _layouts/ │ ├── default.html │ └── table.html ├── crawlplot.py ├── crawlstats.py ├── get_stats.sh ├── get_stats_and_plot.sh ├── index.md ├── plot/ │ ├── charset.py │ ├── crawl_size.py │ ├── crawler_metrics.py │ ├── domain.py │ ├── histogram.py │ ├── language.py │ ├── mimetype.py │ ├── mimetype_detected.py │ ├── overlap.py │ ├── table.py │ ├── tld.py │ └── tld_by_continent.py ├── plot.sh ├── plots/ │ ├── README.md │ ├── charsets-top-100.html │ ├── charsets.csv │ ├── charsets.md │ ├── crawlermetrics.md │ ├── crawloverlap.md │ ├── crawlsize/ │ │ ├── cumulative.csv │ │ ├── domain.csv │ │ ├── monthly.csv │ │ ├── monthly_new.csv │ │ ├── url_last_n_crawls.csv │ │ └── url_page_ratio_last_n_crawls.csv │ ├── crawlsize.md │ ├── domains-top-500.csv │ ├── domains-top-500.html │ ├── domains.md │ ├── languages-top-200.html │ ├── languages.csv │ ├── languages.md │ ├── mimetypes-top-100.html │ ├── mimetypes.csv │ ├── mimetypes.md │ ├── mimetypes_detected-top-100.html │ ├── mimetypes_detected.csv │ ├── tld/ │ │ ├── by-year-and-continent.md │ │ ├── comparison.md │ │ ├── groups-percentage.html │ │ ├── groups.md │ │ ├── latest-crawl-groups.html │ │ ├── latest-crawl-tlds.html │ │ ├── latestcrawl.md │ │ ├── percentage.md │ │ ├── selected-crawl-comparison-spearman-all-tlds.html │ │ ├── selected-crawl-comparison-spearman-frequent-tlds.html │ │ ├── selected-crawl-comparison.html │ │ ├── selected-crawls-percentage.html │ │ ├── selected-tlds-by-year.csv │ │ ├── selected-tlds-by-year.html │ │ ├── tlds-by-year-and-continent.csv │ │ └── tlds-by-year-and-continent.html │ └── tlds.md ├── requirements.txt ├── requirements_plot.txt ├── run_stats_hadoop.sh ├── setup.py ├── site.Dockerfile ├── stats/ │ ├── crawler/ │ │ ├── CC-MAIN-2016-18.json │ │ ├── CC-MAIN-2016-22.json │ │ ├── CC-MAIN-2016-26.json │ │ ├── CC-MAIN-2016-30.json │ │ ├── CC-MAIN-2016-36.json │ │ ├── CC-MAIN-2016-40.json │ │ ├── CC-MAIN-2016-44.json │ │ ├── CC-MAIN-2016-50.json │ │ ├── CC-MAIN-2017-04.json │ │ ├── CC-MAIN-2017-09.json │ │ ├── CC-MAIN-2017-13.json │ │ ├── CC-MAIN-2017-17.json │ │ ├── CC-MAIN-2017-22.json │ │ ├── CC-MAIN-2017-26.json │ │ ├── CC-MAIN-2017-30.json │ │ ├── CC-MAIN-2017-34.json │ │ ├── CC-MAIN-2017-39.json │ │ ├── CC-MAIN-2017-43.json │ │ ├── CC-MAIN-2017-47.json │ │ ├── CC-MAIN-2017-51.json │ │ ├── CC-MAIN-2018-05.json │ │ ├── CC-MAIN-2018-09.json │ │ ├── CC-MAIN-2018-13.json │ │ ├── CC-MAIN-2018-17.json │ │ ├── CC-MAIN-2018-22.json │ │ ├── CC-MAIN-2018-26.json │ │ ├── CC-MAIN-2018-30.json │ │ ├── CC-MAIN-2018-34.json │ │ ├── CC-MAIN-2018-39.json │ │ ├── CC-MAIN-2018-43.json │ │ ├── CC-MAIN-2018-47.json │ │ ├── CC-MAIN-2018-51.json │ │ ├── CC-MAIN-2019-04.json │ │ ├── CC-MAIN-2019-09.json │ │ ├── CC-MAIN-2019-13.json │ │ ├── CC-MAIN-2019-18.json │ │ ├── CC-MAIN-2019-22.json │ │ ├── CC-MAIN-2019-26.json │ │ ├── CC-MAIN-2019-30.json │ │ ├── CC-MAIN-2019-35.json │ │ ├── CC-MAIN-2019-39.json │ │ ├── CC-MAIN-2019-43.json │ │ ├── CC-MAIN-2019-47.json │ │ ├── CC-MAIN-2019-51.json │ │ ├── CC-MAIN-2020-05.json │ │ ├── CC-MAIN-2020-10.json │ │ ├── CC-MAIN-2020-16.json │ │ ├── CC-MAIN-2020-24.json │ │ ├── CC-MAIN-2020-29.json │ │ ├── CC-MAIN-2020-34.json │ │ ├── CC-MAIN-2020-40.json │ │ ├── CC-MAIN-2020-45.json │ │ ├── CC-MAIN-2020-50.json │ │ ├── CC-MAIN-2021-04.json │ │ ├── CC-MAIN-2021-10.json │ │ ├── CC-MAIN-2021-17.json │ │ ├── CC-MAIN-2021-21.json │ │ ├── CC-MAIN-2021-25.json │ │ ├── CC-MAIN-2021-31.json │ │ ├── CC-MAIN-2021-39.json │ │ ├── CC-MAIN-2021-43.json │ │ ├── CC-MAIN-2021-49.json │ │ ├── CC-MAIN-2022-05.json │ │ ├── CC-MAIN-2022-21.json │ │ ├── CC-MAIN-2022-27.json │ │ ├── CC-MAIN-2022-33.json │ │ ├── CC-MAIN-2022-40.json │ │ ├── CC-MAIN-2022-49.json │ │ ├── CC-MAIN-2023-06.json │ │ ├── CC-MAIN-2023-14.json │ │ ├── CC-MAIN-2023-23.json │ │ ├── CC-MAIN-2023-40.json │ │ ├── CC-MAIN-2023-50.json │ │ ├── CC-MAIN-2024-10.json │ │ ├── CC-MAIN-2024-18.json │ │ ├── CC-MAIN-2024-22.json │ │ ├── CC-MAIN-2024-26.json │ │ ├── CC-MAIN-2024-30.json │ │ ├── CC-MAIN-2024-33.json │ │ ├── CC-MAIN-2024-38.json │ │ ├── CC-MAIN-2024-42.json │ │ ├── CC-MAIN-2024-46.json │ │ ├── CC-MAIN-2024-51.json │ │ ├── CC-MAIN-2025-05.json │ │ ├── CC-MAIN-2025-08.json │ │ ├── CC-MAIN-2025-13.json │ │ ├── CC-MAIN-2025-18.json │ │ ├── CC-MAIN-2025-21.json │ │ ├── CC-MAIN-2025-26.json │ │ ├── CC-MAIN-2025-30.json │ │ ├── CC-MAIN-2025-33.json │ │ ├── CC-MAIN-2025-38.json │ │ ├── CC-MAIN-2025-43.json │ │ ├── CC-MAIN-2025-47.json │ │ ├── CC-MAIN-2025-51.json │ │ ├── CC-MAIN-2026-04.json │ │ ├── CC-MAIN-2026-08.json │ │ ├── CC-MAIN-2026-12.json │ │ ├── CC-MAIN-2026-17.json │ │ └── README.md │ ├── tld_alexa_top_1m.py │ ├── tld_cisco_umbrella_top_1m.py │ └── tld_majestic_top_1m.py ├── stats.Dockerfile ├── tests/ │ └── test_crawlstat.py └── top_level_domain.py