gitextract_397qt1mb/ ├── .gitignore ├── .gitmodules ├── .readthedocs.yaml ├── LICENSE ├── README.md ├── configs/ │ └── pretrain_fred_xl.yaml ├── data/ │ ├── example_data/ │ │ ├── RUSpellRU/ │ │ │ ├── corrections.txt │ │ │ └── sources.txt │ │ ├── bea60k/ │ │ │ ├── bea_txt/ │ │ │ │ ├── corrections.txt │ │ │ │ └── sources.txt │ │ │ ├── subsample/ │ │ │ │ ├── corrections.txt │ │ │ │ └── sources.txt │ │ │ ├── test.bea60k │ │ │ └── test.bea60k.noise │ │ └── jfleg/ │ │ ├── corrections.txt │ │ └── sources.txt │ └── sanity_check_samples/ │ ├── RUSpellRU/ │ │ ├── corrections.txt │ │ └── sources.txt │ ├── corrected_sents.txt │ ├── corruptor_tests/ │ │ ├── broken_csv_file_columns/ │ │ │ └── data.csv │ │ ├── broken_csv_file_nans/ │ │ │ └── data.csv │ │ ├── broken_csv_file_opening/ │ │ │ └── data.csv │ │ ├── broken_text_files/ │ │ │ ├── corrections.txt │ │ │ └── sources.txt │ │ ├── corrections.txt │ │ ├── csv/ │ │ │ └── data.csv │ │ ├── sources.txt │ │ └── wrong_names/ │ │ ├── corrections_.txt │ │ ├── data_.csv │ │ └── sources_.txt │ └── source_sents.txt ├── docs/ │ ├── Makefile │ ├── make.bat │ ├── requirements.txt │ └── source/ │ ├── conf.py │ ├── index.rst │ └── rst/ │ ├── datasets/ │ │ ├── GitHubTypoCorpusRu.rst │ │ ├── MedSpellchecker.rst │ │ ├── MultidomainGold.rst │ │ └── RUSpellRU.rst │ ├── evaluation/ │ │ ├── RuErrant.rst │ │ └── RuSpellEval.rst │ ├── spelling_correction/ │ │ ├── FredT5-large.rst │ │ ├── M2M100-418M.rst │ │ ├── RuM2M100-1.2B.rst │ │ ├── T5.rst │ │ ├── sage-fredt5-distilled-95m.rst │ │ ├── sage-fredt5-large.rst │ │ ├── sage-m2m100-1.2B.rst │ │ └── sage-mt5-large.rst │ └── spelling_corruption/ │ ├── Augmentex.rst │ └── SBSC.rst ├── notebooks/ │ ├── augmentation_pipeline.ipynb │ ├── text_correction_demo.ipynb │ └── text_corruption_demo.ipynb ├── sage/ │ ├── __init__.py │ ├── evaluation/ │ │ ├── __init__.py │ │ ├── readme.md │ │ ├── ruerrant_wrapper/ │ │ │ ├── __init__.py │ │ │ ├── classifier.py │ │ │ ├── merger.py │ │ │ └── scorer.py │ │ ├── ruspelleval.py │ │ └── scorer.py │ ├── pipeline/ │ │ ├── __init__.py │ │ ├── augmenters.py │ │ ├── config.py │ │ └── pipeline.py │ ├── spelling_correction/ │ │ ├── __init__.py │ │ ├── corrector.py │ │ ├── corruptors/ │ │ │ ├── __init__.py │ │ │ ├── identity.py │ │ │ └── randomchar.py │ │ ├── m2m_correctors.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ └── t5/ │ │ │ ├── __init__.py │ │ │ ├── encoder_task.py │ │ │ ├── multiclass.py │ │ │ ├── multilabel.py │ │ │ └── multilabel_lm.py │ │ ├── t5_correctors.py │ │ └── training/ │ │ ├── __init__.py │ │ ├── data_processor.py │ │ ├── data_utils.py │ │ └── trainer.py │ ├── spelling_corruption/ │ │ ├── __init__.py │ │ ├── configuration_corruptor.py │ │ ├── corruptor.py │ │ └── sbsc/ │ │ ├── __init__.py │ │ ├── base_classes.py │ │ ├── labeler.py │ │ ├── model.py │ │ ├── sbsc.py │ │ └── typings_positions_conditions.py │ └── utils/ │ ├── __init__.py │ ├── data_load_utils.py │ ├── lang_utils.py │ └── utils.py ├── setup.py └── tests/ ├── corruptor_api_unittests.py ├── sbsc_corruptor_unittests.py ├── test_correctors.py ├── test_corruptors.py ├── test_evaluate.py ├── test_metrics.py ├── test_pipeline.py ├── test_ruspelleval.py ├── test_utils.py ├── tests.py └── tests_english.py