gitextract_njn6cbk0/ ├── .dvc/ │ ├── .gitignore │ ├── config │ └── plots/ │ ├── confusion.json │ ├── default.json │ ├── scatter.json │ └── smooth.json ├── .dvcignore ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── bug-report.yml │ │ ├── config.yml │ │ └── feature-request.yml │ ├── conda/ │ │ ├── build.sh │ │ └── meta.yaml │ └── workflows/ │ ├── build_documentation.yml │ ├── build_pr_documentation.yml │ ├── ci.yml │ ├── release-conda.yml │ ├── self-assign.yaml │ ├── trufflehog.yml │ └── upload_pr_documentation.yml ├── .gitignore ├── .pre-commit-config.yaml ├── .zenodo.json ├── ADD_NEW_DATASET.md ├── AUTHORS ├── CITATION.cff ├── CODE_OF_CONDUCT.md ├── CONTRIBUTING.md ├── LICENSE ├── Makefile ├── README.md ├── SECURITY.md ├── benchmarks/ │ ├── benchmark_array_xd.py │ ├── benchmark_getitem_100B.py │ ├── benchmark_indices_mapping.py │ ├── benchmark_iterating.py │ ├── benchmark_map_filter.py │ ├── format.py │ ├── results/ │ │ ├── .gitkeep │ │ ├── benchmark_array_xd.json │ │ ├── benchmark_getitem_100B.json │ │ ├── benchmark_indices_mapping.json │ │ ├── benchmark_iterating.json │ │ └── benchmark_map_filter.json │ └── utils.py ├── docs/ │ ├── README.md │ └── source/ │ ├── _config.py │ ├── _redirects.yml │ ├── _toctree.yml │ ├── about_arrow.md │ ├── about_cache.mdx │ ├── about_dataset_features.mdx │ ├── about_dataset_load.mdx │ ├── about_map_batch.mdx │ ├── about_mapstyle_vs_iterable.mdx │ ├── access.mdx │ ├── audio_dataset.mdx │ ├── audio_load.mdx │ ├── audio_process.mdx │ ├── cache.mdx │ ├── cli.mdx │ ├── create_dataset.mdx │ ├── dataset_card.mdx │ ├── depth_estimation.mdx │ ├── document_dataset.mdx │ ├── document_load.mdx │ ├── faiss_es.mdx │ ├── filesystems.mdx │ ├── how_to.md │ ├── image_classification.mdx │ ├── image_dataset.mdx │ ├── image_load.mdx │ ├── image_process.mdx │ ├── index.mdx │ ├── installation.md │ ├── load_hub.mdx │ ├── loading.mdx │ ├── nifti_dataset.mdx │ ├── nlp_load.mdx │ ├── nlp_process.mdx │ ├── object_detection.mdx │ ├── package_reference/ │ │ ├── builder_classes.mdx │ │ ├── loading_methods.mdx │ │ ├── main_classes.mdx │ │ ├── table_classes.mdx │ │ └── utilities.mdx │ ├── process.mdx │ ├── quickstart.mdx │ ├── repository_structure.mdx │ ├── semantic_segmentation.mdx │ ├── share.mdx │ ├── stream.mdx │ ├── tabular_load.mdx │ ├── troubleshoot.mdx │ ├── tutorial.md │ ├── upload_dataset.mdx │ ├── use_dataset.mdx │ ├── use_with_jax.mdx │ ├── use_with_numpy.mdx │ ├── use_with_pandas.mdx │ ├── use_with_polars.mdx │ ├── use_with_pyarrow.mdx │ ├── use_with_pytorch.mdx │ ├── use_with_spark.mdx │ ├── use_with_tensorflow.mdx │ ├── video_dataset.mdx │ └── video_load.mdx ├── notebooks/ │ └── README.md ├── pyproject.toml ├── setup.py ├── src/ │ └── datasets/ │ ├── __init__.py │ ├── arrow_dataset.py │ ├── arrow_reader.py │ ├── arrow_writer.py │ ├── builder.py │ ├── combine.py │ ├── commands/ │ │ ├── __init__.py │ │ ├── datasets_cli.py │ │ ├── delete_from_hub.py │ │ ├── env.py │ │ └── test.py │ ├── config.py │ ├── data_files.py │ ├── dataset_dict.py │ ├── distributed.py │ ├── download/ │ │ ├── __init__.py │ │ ├── download_config.py │ │ ├── download_manager.py │ │ └── streaming_download_manager.py │ ├── exceptions.py │ ├── features/ │ │ ├── __init__.py │ │ ├── _torchcodec.py │ │ ├── audio.py │ │ ├── features.py │ │ ├── image.py │ │ ├── nifti.py │ │ ├── pdf.py │ │ ├── translation.py │ │ └── video.py │ ├── filesystems/ │ │ ├── __init__.py │ │ └── compression.py │ ├── fingerprint.py │ ├── formatting/ │ │ ├── __init__.py │ │ ├── formatting.py │ │ ├── jax_formatter.py │ │ ├── np_formatter.py │ │ ├── polars_formatter.py │ │ ├── tf_formatter.py │ │ └── torch_formatter.py │ ├── hub.py │ ├── info.py │ ├── inspect.py │ ├── io/ │ │ ├── __init__.py │ │ ├── abc.py │ │ ├── csv.py │ │ ├── generator.py │ │ ├── json.py │ │ ├── parquet.py │ │ ├── spark.py │ │ ├── sql.py │ │ └── text.py │ ├── iterable_dataset.py │ ├── load.py │ ├── naming.py │ ├── packaged_modules/ │ │ ├── __init__.py │ │ ├── arrow/ │ │ │ ├── __init__.py │ │ │ └── arrow.py │ │ ├── audiofolder/ │ │ │ ├── __init__.py │ │ │ └── audiofolder.py │ │ ├── cache/ │ │ │ ├── __init__.py │ │ │ └── cache.py │ │ ├── csv/ │ │ │ ├── __init__.py │ │ │ └── csv.py │ │ ├── eval/ │ │ │ ├── __init__.py │ │ │ └── eval.py │ │ ├── folder_based_builder/ │ │ │ ├── __init__.py │ │ │ └── folder_based_builder.py │ │ ├── generator/ │ │ │ ├── __init__.py │ │ │ └── generator.py │ │ ├── hdf5/ │ │ │ ├── __init__.py │ │ │ └── hdf5.py │ │ ├── imagefolder/ │ │ │ ├── __init__.py │ │ │ └── imagefolder.py │ │ ├── json/ │ │ │ ├── __init__.py │ │ │ └── json.py │ │ ├── lance/ │ │ │ ├── __init__.py │ │ │ └── lance.py │ │ ├── niftifolder/ │ │ │ ├── __init__.py │ │ │ └── niftifolder.py │ │ ├── pandas/ │ │ │ ├── __init__.py │ │ │ └── pandas.py │ │ ├── parquet/ │ │ │ ├── __init__.py │ │ │ └── parquet.py │ │ ├── pdffolder/ │ │ │ ├── __init__.py │ │ │ └── pdffolder.py │ │ ├── spark/ │ │ │ ├── __init__.py │ │ │ └── spark.py │ │ ├── sql/ │ │ │ ├── __init__.py │ │ │ └── sql.py │ │ ├── text/ │ │ │ ├── __init__.py │ │ │ └── text.py │ │ ├── videofolder/ │ │ │ ├── __init__.py │ │ │ └── videofolder.py │ │ ├── webdataset/ │ │ │ ├── __init__.py │ │ │ ├── _tenbin.py │ │ │ └── webdataset.py │ │ └── xml/ │ │ ├── __init__.py │ │ └── xml.py │ ├── parallel/ │ │ ├── __init__.py │ │ └── parallel.py │ ├── search.py │ ├── splits.py │ ├── streaming.py │ ├── table.py │ └── utils/ │ ├── __init__.py │ ├── _dataset_viewer.py │ ├── _dill.py │ ├── _filelock.py │ ├── deprecation_utils.py │ ├── doc_utils.py │ ├── experimental.py │ ├── extract.py │ ├── file_utils.py │ ├── filelock.py │ ├── hub.py │ ├── info_utils.py │ ├── json.py │ ├── logging.py │ ├── metadata.py │ ├── patching.py │ ├── py_utils.py │ ├── resources/ │ │ ├── __init__.py │ │ ├── creators.json │ │ ├── languages.json │ │ ├── multilingualities.json │ │ ├── readme_structure.yaml │ │ └── size_categories.json │ ├── sharding.py │ ├── stratify.py │ ├── tf_utils.py │ ├── tqdm.py │ ├── track.py │ ├── typing.py │ └── version.py ├── templates/ │ ├── README.md │ └── README_guide.md ├── tests/ │ ├── __init__.py │ ├── _test_patching.py │ ├── commands/ │ │ ├── __init__.py │ │ ├── conftest.py │ │ └── test_test.py │ ├── conftest.py │ ├── distributed_scripts/ │ │ └── run_torch_distributed.py │ ├── features/ │ │ ├── __init__.py │ │ ├── data/ │ │ │ ├── test_audio_16000.pcm │ │ │ ├── test_audio_48000.opus │ │ │ └── test_nifti.nii │ │ ├── test_array_xd.py │ │ ├── test_audio.py │ │ ├── test_features.py │ │ ├── test_image.py │ │ ├── test_nifti.py │ │ ├── test_pdf.py │ │ └── test_video.py │ ├── fixtures/ │ │ ├── __init__.py │ │ ├── files.py │ │ ├── fsspec.py │ │ └── hub.py │ ├── io/ │ │ ├── __init__.py │ │ ├── data/ │ │ │ ├── test_file.json.bz2 │ │ │ └── test_file.json.xz │ │ ├── test_csv.py │ │ ├── test_json.py │ │ ├── test_parquet.py │ │ ├── test_sql.py │ │ └── test_text.py │ ├── packaged_modules/ │ │ ├── __init__.py │ │ ├── test_arrow.py │ │ ├── test_audiofolder.py │ │ ├── test_cache.py │ │ ├── test_csv.py │ │ ├── test_folder_based_builder.py │ │ ├── test_hdf5.py │ │ ├── test_imagefolder.py │ │ ├── test_json.py │ │ ├── test_lance.py │ │ ├── test_pandas.py │ │ ├── test_parquet.py │ │ ├── test_spark.py │ │ ├── test_sql.py │ │ ├── test_text.py │ │ ├── test_videofolder.py │ │ └── test_webdataset.py │ ├── test_arrow_dataset.py │ ├── test_arrow_reader.py │ ├── test_arrow_writer.py │ ├── test_builder.py │ ├── test_data_files.py │ ├── test_dataset_dict.py │ ├── test_dataset_list.py │ ├── test_distributed.py │ ├── test_download_manager.py │ ├── test_exceptions.py │ ├── test_experimental.py │ ├── test_extract.py │ ├── test_file_utils.py │ ├── test_filelock.py │ ├── test_filesystem.py │ ├── test_fingerprint.py │ ├── test_fingerprint_tokenizer_stability.py │ ├── test_formatting.py │ ├── test_hub.py │ ├── test_info.py │ ├── test_info_utils.py │ ├── test_inspect.py │ ├── test_iterable_dataset.py │ ├── test_load.py │ ├── test_metadata_util.py │ ├── test_offline_util.py │ ├── test_parallel.py │ ├── test_patching.py │ ├── test_py_utils.py │ ├── test_search.py │ ├── test_sharding_utils.py │ ├── test_splits.py │ ├── test_streaming_download_manager.py │ ├── test_table.py │ ├── test_tqdm.py │ ├── test_upstream_hub.py │ ├── test_version.py │ └── utils.py └── utils/ └── release.py