gitextract_2j6ggfs5/ ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── bug_report.md │ │ ├── dataset-addition.md │ │ ├── documentation.md │ │ └── feature_request.md │ └── workflows/ │ ├── deploy.yml │ └── test.yml ├── .gitignore ├── LICENSE ├── MANIFEST.in ├── README.md ├── examples/ │ ├── adding_datasets.ipynb │ ├── clirmatrix_example.py │ ├── ir_datasets.ipynb │ └── ir_datasets_cli.ipynb ├── ir_datasets/ │ ├── __init__.py │ ├── __main__.py │ ├── commands/ │ │ ├── __init__.py │ │ ├── build_c4_checkpoints.py │ │ ├── build_clueweb_warc_indexes.py │ │ ├── build_download_cache.py │ │ ├── clean.py │ │ ├── doc_fifos.py │ │ ├── export.py │ │ ├── generate_metadata.py │ │ ├── list.py │ │ └── lookup.py │ ├── datasets/ │ │ ├── __init__.py │ │ ├── antique.py │ │ ├── aol_ia.py │ │ ├── aquaint.py │ │ ├── argsme.py │ │ ├── base.py │ │ ├── beir.py │ │ ├── c4.py │ │ ├── car.py │ │ ├── clinicaltrials.py │ │ ├── clirmatrix.py │ │ ├── clueweb09.py │ │ ├── clueweb12.py │ │ ├── codec.py │ │ ├── codesearchnet.py │ │ ├── cord19.py │ │ ├── cranfield.py │ │ ├── csl.py │ │ ├── disks45.py │ │ ├── dpr_w100.py │ │ ├── gov.py │ │ ├── gov2.py │ │ ├── hc4.py │ │ ├── highwire.py │ │ ├── istella22.py │ │ ├── kilt.py │ │ ├── lotte.py │ │ ├── medline.py │ │ ├── miracl.py │ │ ├── mmarco.py │ │ ├── mr_tydi.py │ │ ├── msmarco_document.py │ │ ├── msmarco_document_v2.py │ │ ├── msmarco_passage.py │ │ ├── msmarco_passage_v2.py │ │ ├── msmarco_qna.py │ │ ├── nano_beir.py │ │ ├── natural_questions.py │ │ ├── neuclir.py │ │ ├── neumarco.py │ │ ├── nfcorpus.py │ │ ├── nyt.py │ │ ├── pmc.py │ │ ├── sara.py │ │ ├── touche.py │ │ ├── touche_image.py │ │ ├── trec_arabic.py │ │ ├── trec_cast.py │ │ ├── trec_fair.py │ │ ├── trec_mandarin.py │ │ ├── trec_robust04.py │ │ ├── trec_spanish.py │ │ ├── trec_tot.py │ │ ├── trec_tot_2025.py │ │ ├── tripclick.py │ │ ├── tweets2013_ia.py │ │ ├── vaswani.py │ │ ├── wapo.py │ │ ├── wikiclir.py │ │ └── wikir.py │ ├── docs/ │ │ ├── antique.yaml │ │ ├── aol-ia.yaml │ │ ├── aquaint.yaml │ │ ├── argsme.yaml │ │ ├── beir.yaml │ │ ├── bibliography.bib │ │ ├── c4.yaml │ │ ├── car.yaml │ │ ├── clinicaltrials.yaml │ │ ├── clirmatrix.yaml │ │ ├── clueweb09.yaml │ │ ├── clueweb12.yaml │ │ ├── codec.yaml │ │ ├── codesearchnet.yaml │ │ ├── cord19.yaml │ │ ├── cranfield.yaml │ │ ├── csl.yaml │ │ ├── disks45.yaml │ │ ├── dpr-w100.yaml │ │ ├── gov.yaml │ │ ├── gov2.yaml │ │ ├── hc4.yaml │ │ ├── highwire.yaml │ │ ├── istella22.yaml │ │ ├── kilt.yaml │ │ ├── lotte.yaml │ │ ├── medline.yaml │ │ ├── miracl.yaml │ │ ├── mmarco.yaml │ │ ├── mr-tydi.yaml │ │ ├── msmarco-document-v2.yaml │ │ ├── msmarco-document.yaml │ │ ├── msmarco-passage-v2.yaml │ │ ├── msmarco-passage.yaml │ │ ├── msmarco-qna.yaml │ │ ├── nano-beir.yaml │ │ ├── natural-questions.yaml │ │ ├── neuclir.yaml │ │ ├── neumarco.yaml │ │ ├── nfcorpus.yaml │ │ ├── nyt.yaml │ │ ├── pmc.yaml │ │ ├── sara.yaml │ │ ├── touche-image.yaml │ │ ├── touche.yaml │ │ ├── trec-arabic.yaml │ │ ├── trec-cast.yaml │ │ ├── trec-fair.yaml │ │ ├── trec-mandarin.yaml │ │ ├── trec-robust04.yaml │ │ ├── trec-spanish.yaml │ │ ├── trec-tot-2025.yaml │ │ ├── trec-tot.yaml │ │ ├── tripclick.yaml │ │ ├── tweets2013-ia.yaml │ │ ├── vaswani.yaml │ │ ├── wapo.yaml │ │ ├── wikiclir.yaml │ │ └── wikir.yaml │ ├── etc/ │ │ ├── downloads.json │ │ └── metadata.json │ ├── formats/ │ │ ├── __init__.py │ │ ├── argsme.py │ │ ├── base.py │ │ ├── clirmatrix.py │ │ ├── csv_fmt.py │ │ ├── extracted_cc.py │ │ ├── jsonl.py │ │ ├── ntcir.py │ │ ├── touche.py │ │ ├── touche_image.py │ │ ├── trec.py │ │ ├── tsv.py │ │ └── webarc.py │ ├── indices/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── cache_docstore.py │ │ ├── clueweb_warc.py │ │ ├── indexed_tsv_docstore.py │ │ ├── lz4_pickle.py │ │ ├── numpy_sorted_index.py │ │ └── zpickle_docstore.py │ ├── lazy_libs.py │ ├── log.py │ ├── util/ │ │ ├── __init__.py │ │ ├── docs/ │ │ │ ├── __init__.py │ │ │ ├── lazy.py │ │ │ ├── multiple.py │ │ │ └── subset.py │ │ ├── download.py │ │ ├── fileio.py │ │ ├── hash.py │ │ ├── html_parsing.py │ │ ├── metadata.py │ │ └── registry.py │ └── wrappers/ │ ├── __init__.py │ └── html_extractor.py ├── pyproject.toml ├── requirements-test.txt ├── requirements.txt └── test/ ├── __init__.py ├── downloads.py ├── dummy/ │ ├── docs.tsv │ ├── qrels │ └── queries.tsv ├── formats/ │ ├── __init__.py │ ├── test_trec.py │ └── test_tsv.py ├── indices/ │ ├── __init__.py │ ├── lz4_pickle.py │ └── numpy_sorted.py ├── integration/ │ ├── __init__.py │ ├── antique.py │ ├── aol_ia.py │ ├── aquaint.py │ ├── argsme.py │ ├── base.py │ ├── beir.py │ ├── c4.py │ ├── car.py │ ├── clinicaltrials.py │ ├── clirmatrix.py │ ├── clueweb09.py │ ├── clueweb12.py │ ├── codec.py │ ├── codesearchnet.py │ ├── cord19.py │ ├── cranfield.py │ ├── csl.py │ ├── disks45.py │ ├── dpr_w100.py │ ├── dummy.py │ ├── gov.py │ ├── gov2.py │ ├── hc4.py │ ├── highwire.py │ ├── istella22.py │ ├── kilt.py │ ├── lotte.py │ ├── medline.py │ ├── miracl.py │ ├── mmarco.py │ ├── mr_tydi.py │ ├── msmarco_document.py │ ├── msmarco_document_v2.py │ ├── msmarco_passage.py │ ├── msmarco_passage_v2.py │ ├── msmarco_qna.py │ ├── nano_beir.py │ ├── natural_questions.py │ ├── neuclir.py │ ├── neumarco.py │ ├── nfcorpus.py │ ├── nyt.py │ ├── pmc.py │ ├── sara.py │ ├── touche.py │ ├── touche_image.py │ ├── trec_arabic.py │ ├── trec_cast.py │ ├── trec_fair.py │ ├── trec_mandarin.py │ ├── trec_robust04.py │ ├── trec_spanish.py │ ├── trec_tot.py │ ├── trec_tot_2024.py │ ├── trec_tot_2025/ │ │ ├── test_docs_iter.py │ │ ├── test_docs_store.py │ │ ├── test_qrel_iter.py │ │ └── test_queries_iter.py │ ├── tripclick.py │ ├── tweets2013_ia.py │ ├── vaswani.py │ ├── wapo.py │ ├── wikiclir.py │ └── wikir.py ├── metadata.py ├── test_defaulttext.py ├── util/ │ └── docs/ │ ├── __init__.py │ ├── data.py │ ├── test_multiple.py │ └── test_subset.py └── util.py