gitextract_kw76odef/ ├── .gitignore ├── LICENSE ├── README.md ├── caduceus/ │ ├── __init__.py │ ├── configuration_caduceus.py │ ├── modeling_caduceus.py │ ├── modeling_rcps.py │ ├── tests/ │ │ └── test_rcps.py │ └── tokenization_caduceus.py ├── caduceus_env.yml ├── configs/ │ ├── callbacks/ │ │ ├── base.yaml │ │ ├── checkpoint.yaml │ │ ├── gpu_affinity.yaml │ │ ├── rich.yaml │ │ ├── val_every_n_global_steps.yaml │ │ └── wandb.yaml │ ├── config.yaml │ ├── dataset/ │ │ ├── genomic_benchmark.yaml │ │ ├── hg38.yaml │ │ └── nucleotide_transformer.yaml │ ├── experiment/ │ │ └── hg38/ │ │ ├── genomic_benchmark.yaml │ │ ├── genomic_benchmark_cnn.yaml │ │ ├── hg38.yaml │ │ └── nucleotide_transformer.yaml │ ├── loader/ │ │ └── default.yaml │ ├── model/ │ │ ├── caduceus.yaml │ │ ├── genomics_benchmark_cnn.yaml │ │ ├── hyena.yaml │ │ ├── layer/ │ │ │ └── hyena.yaml │ │ └── mamba.yaml │ ├── optimizer/ │ │ ├── adam.yaml │ │ ├── adamw.yaml │ │ └── sgd.yaml │ ├── pipeline/ │ │ ├── genomic_benchmark.yaml │ │ ├── hg38.yaml │ │ └── nucleotide_transformer.yaml │ ├── scheduler/ │ │ ├── constant.yaml │ │ ├── constant_warmup.yaml │ │ ├── cosine.yaml │ │ ├── cosine_warmup.yaml │ │ ├── cosine_warmup_timm.yaml │ │ ├── linear_warmup.yaml │ │ ├── multistep.yaml │ │ ├── plateau.yaml │ │ └── step.yaml │ ├── task/ │ │ ├── lm.yaml │ │ ├── multiclass_classification.yaml │ │ ├── multilabel_classification.yaml │ │ └── regression.yaml │ └── trainer/ │ ├── debug.yaml │ ├── default.yaml │ ├── full.yaml │ └── lm.yaml ├── setup_env.sh ├── slurm_scripts/ │ ├── dump_vep_embeddings.sh │ ├── run_genomics_benchmark.sh │ ├── run_genomics_benchmark_cnn.sh │ ├── run_nucleotide_transformer.sh │ ├── run_pretrain_caduceus.sh │ ├── run_pretrain_hyena.sh │ ├── run_pretrain_mamba.sh │ ├── wrapper_run_genomics.sh │ ├── wrapper_run_genomics_cnn.sh │ └── wrapper_run_nucleotide_transformer.sh ├── src/ │ ├── __init__.py │ ├── callbacks/ │ │ ├── params.py │ │ ├── timer.py │ │ └── validation.py │ ├── dataloaders/ │ │ ├── __init__.py │ │ ├── base.py │ │ ├── datasets/ │ │ │ ├── genomic_bench_dataset.py │ │ │ ├── hg38_char_tokenizer.py │ │ │ ├── hg38_dataset.py │ │ │ └── nucleotide_transformer_dataset.py │ │ ├── fault_tolerant_sampler.py │ │ ├── genomics.py │ │ └── utils/ │ │ ├── mlm.py │ │ └── rc.py │ ├── models/ │ │ ├── __init__.py │ │ ├── baseline/ │ │ │ ├── __init__.py │ │ │ └── genomics_benchmark_cnn.py │ │ ├── nn/ │ │ │ ├── __init__.py │ │ │ ├── activation.py │ │ │ ├── adaptive_softmax.py │ │ │ └── utils.py │ │ └── sequence/ │ │ ├── __init__.py │ │ ├── dna_embedding.py │ │ ├── hyena.py │ │ └── long_conv_lm.py │ ├── ops/ │ │ └── fftconv.py │ ├── tasks/ │ │ ├── decoders.py │ │ ├── encoders.py │ │ ├── metrics.py │ │ ├── tasks.py │ │ └── torchmetrics.py │ └── utils/ │ ├── __init__.py │ ├── config.py │ ├── optim/ │ │ └── schedulers.py │ ├── optim_groups.py │ ├── registry.py │ └── train.py ├── train.py ├── vep_embeddings.py └── vep_svm.ipynb