gitextract_g6u__ttu/ ├── .gitignore ├── LICENSE ├── README.md ├── data_selection/ │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── hashed_ngram_dsir.py │ └── utils.py ├── experimental/ │ ├── README.md │ ├── config.sh │ ├── data_selection/ │ │ ├── dsir_general/ │ │ │ ├── data_selection.py │ │ │ ├── run_data_selection.py │ │ │ └── utils.py │ │ ├── dsir_pipeline.py │ │ ├── heuristic_cls_pipeline.py │ │ ├── run_cmds.sh │ │ ├── run_dsir.sh │ │ ├── run_dsir_helper.sh │ │ ├── run_heuristic_cls.sh │ │ └── run_heuristic_cls_helper.sh │ ├── glue_eval/ │ │ ├── read_glue_results.py │ │ ├── run_eval_exps.sh │ │ ├── run_glue.py │ │ ├── run_glue_dist.sh │ │ └── run_glue_for_seed_task.sh │ ├── preprocessing/ │ │ ├── quality_scores/ │ │ │ ├── compute_quality_stats.py │ │ │ ├── merge_quality_scores.py │ │ │ ├── run_merge_quality_scores.sh │ │ │ ├── run_quality_stats.sh │ │ │ └── run_slurm_quality_stats.sh │ │ ├── reformat_and_chunk_data.py │ │ ├── run.sh │ │ └── run_slurm.sh │ ├── requirements.txt │ └── train/ │ ├── accelerate_config.yaml │ ├── collator.py │ ├── model.py │ ├── preprocess_general.sh │ ├── pretrain_general.sh │ ├── requirements.txt │ ├── run_pipeline.py │ ├── run_pretrain_pipeline_general.sh │ ├── run_slurm.sh │ └── trainer.py ├── pyproject.toml ├── setup.py └── tests/ ├── test_hashed_ngram.py ├── test_utils.py ├── toy_pile_data.jsonl ├── toy_target_data.jsonl └── toy_target_data_2.jsonl