gitextract_mez1vc95/

├── .gitignore
├── LICENSE
├── NeuralSeq/
│   ├── LICENSE
│   ├── README.md
│   ├── configs/
│   │   ├── config_base.yaml
│   │   ├── singing/
│   │   │   ├── base.yaml
│   │   │   └── fs2.yaml
│   │   └── tts/
│   │       ├── base.yaml
│   │       ├── base_zh.yaml
│   │       ├── emotion/
│   │       │   ├── base_text2mel.yaml
│   │       │   └── pre_align.py
│   │       ├── fs2.yaml
│   │       ├── hifigan.yaml
│   │       ├── libritts/
│   │       │   ├── base_text2mel.yaml
│   │       │   ├── fs2.yaml
│   │       │   ├── pre_align.py
│   │       │   └── pwg.yaml
│   │       ├── lj/
│   │       │   ├── base_mel2wav.yaml
│   │       │   ├── base_text2mel.yaml
│   │       │   ├── fs2.yaml
│   │       │   ├── hifigan.yaml
│   │       │   └── pwg.yaml
│   │       └── pwg.yaml
│   ├── data_gen/
│   │   └── tts/
│   │       ├── base_binarizer.py
│   │       ├── base_binarizer_emotion.py
│   │       ├── base_preprocess.py
│   │       ├── binarizer_zh.py
│   │       ├── data_gen_utils.py
│   │       ├── emotion/
│   │       │   ├── audio.py
│   │       │   ├── inference.py
│   │       │   ├── model.py
│   │       │   ├── params_data.py
│   │       │   ├── params_model.py
│   │       │   └── test_emotion.py
│   │       ├── txt_processors/
│   │       │   ├── __init__.py
│   │       │   ├── base_text_processor.py
│   │       │   ├── en.py
│   │       │   ├── zh.py
│   │       │   └── zh_g2pM.py
│   │       └── wav_processors/
│   │           ├── __init__.py
│   │           ├── base_processor.py
│   │           └── common_processors.py
│   ├── egs/
│   │   ├── datasets/
│   │   │   └── audio/
│   │   │       ├── emotion/
│   │   │       │   ├── base_text2mel.yaml
│   │   │       │   └── pre_align.py
│   │   │       ├── libritts/
│   │   │       │   ├── base_text2mel.yaml
│   │   │       │   ├── fs2.yaml
│   │   │       │   ├── pre_align.py
│   │   │       │   └── pwg.yaml
│   │   │       ├── lj/
│   │   │       │   ├── base_mel2wav.yaml
│   │   │       │   ├── preprocess.py
│   │   │       │   └── pwg.yaml
│   │   │       └── vctk/
│   │   │           ├── base_mel2wav.yaml
│   │   │           ├── fs2.yaml
│   │   │           ├── pre_align.py
│   │   │           └── pwg.yaml
│   │   └── egs_bases/
│   │       ├── config_base.yaml
│   │       ├── svs/
│   │       │   ├── base.yaml
│   │       │   ├── lj_ds_beta6.yaml
│   │       │   ├── midi/
│   │       │   │   ├── cascade/
│   │       │   │   │   └── opencs/
│   │       │   │   │       ├── aux_rel.yaml
│   │       │   │   │       ├── ds60_rel.yaml
│   │       │   │   │       └── opencpop_statis.yaml
│   │       │   │   ├── e2e/
│   │       │   │   │   ├── opencpop/
│   │       │   │   │   │   ├── ds1000-10dil.yaml
│   │       │   │   │   │   ├── ds1000.yaml
│   │       │   │   │   │   └── ds100_adj_rel.yaml
│   │       │   │   │   └── popcs/
│   │       │   │   │       └── ds100_adj_rel.yaml
│   │       │   │   └── pe.yaml
│   │       │   ├── popcs_ds_beta6.yaml
│   │       │   ├── popcs_ds_beta6_offline.yaml
│   │       │   └── popcs_fs2.yaml
│   │       └── tts/
│   │           ├── base.yaml
│   │           ├── base_zh.yaml
│   │           ├── fs2.yaml
│   │           ├── fs2_adv.yaml
│   │           ├── ps.yaml
│   │           ├── ps_flow.yaml
│   │           ├── ps_flow_small.yaml
│   │           └── vocoder/
│   │               ├── base.yaml
│   │               ├── hifigan.yaml
│   │               └── pwg.yaml
│   ├── gitattributes
│   ├── inference/
│   │   ├── svs/
│   │   │   ├── base_svs_infer.py
│   │   │   ├── ds_cascade.py
│   │   │   ├── ds_e2e.py
│   │   │   └── opencpop/
│   │   │       ├── cpop_pinyin2ph.txt
│   │   │       └── map.py
│   │   └── tts/
│   │       ├── GenerSpeech.py
│   │       ├── PortaSpeech.py
│   │       └── base_tts_infer.py
│   ├── modules/
│   │   ├── GenerSpeech/
│   │   │   ├── config/
│   │   │   │   └── generspeech.yaml
│   │   │   ├── model/
│   │   │   │   ├── generspeech.py
│   │   │   │   ├── glow_modules.py
│   │   │   │   ├── mixstyle.py
│   │   │   │   ├── prosody_util.py
│   │   │   │   └── wavenet.py
│   │   │   └── task/
│   │   │       ├── dataset.py
│   │   │       └── generspeech.py
│   │   ├── __init__.py
│   │   ├── commons/
│   │   │   ├── align_ops.py
│   │   │   ├── common_layers.py
│   │   │   ├── conv.py
│   │   │   ├── espnet_positional_embedding.py
│   │   │   ├── normalizing_flow/
│   │   │   │   ├── glow_modules.py
│   │   │   │   ├── res_flow.py
│   │   │   │   └── utils.py
│   │   │   ├── rel_transformer.py
│   │   │   ├── ssim.py
│   │   │   ├── transformer.py
│   │   │   └── wavenet.py
│   │   ├── diff/
│   │   │   ├── candidate_decoder.py
│   │   │   ├── diffusion.py
│   │   │   ├── net.py
│   │   │   └── shallow_diffusion_tts.py
│   │   ├── diffsinger_midi/
│   │   │   └── fs2.py
│   │   ├── fastspeech/
│   │   │   ├── fs2.py
│   │   │   ├── pe.py
│   │   │   └── tts_modules.py
│   │   ├── hifigan/
│   │   │   ├── hifigan.py
│   │   │   └── mel_utils.py
│   │   ├── parallel_wavegan/
│   │   │   ├── __init__.py
│   │   │   ├── layers/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── causal_conv.py
│   │   │   │   ├── pqmf.py
│   │   │   │   ├── residual_block.py
│   │   │   │   ├── residual_stack.py
│   │   │   │   ├── tf_layers.py
│   │   │   │   └── upsample.py
│   │   │   ├── losses/
│   │   │   │   ├── __init__.py
│   │   │   │   └── stft_loss.py
│   │   │   ├── models/
│   │   │   │   ├── __init__.py
│   │   │   │   ├── melgan.py
│   │   │   │   ├── parallel_wavegan.py
│   │   │   │   └── source.py
│   │   │   ├── optimizers/
│   │   │   │   ├── __init__.py
│   │   │   │   └── radam.py
│   │   │   ├── stft_loss.py
│   │   │   └── utils/
│   │   │       ├── __init__.py
│   │   │       └── utils.py
│   │   └── syntaspeech/
│   │       ├── multi_window_disc.py
│   │       ├── syntactic_graph_buider.py
│   │       ├── syntactic_graph_encoder.py
│   │       └── syntaspeech.py
│   ├── tasks/
│   │   ├── base_task.py
│   │   ├── run.py
│   │   ├── svs/
│   │   │   ├── __init__.py
│   │   │   ├── diffsinger_task.py
│   │   │   ├── diffspeech_task.py
│   │   │   └── task.py
│   │   ├── tts/
│   │   │   ├── dataset_utils.py
│   │   │   ├── fs2.py
│   │   │   ├── fs2_adv.py
│   │   │   ├── fs2_utils.py
│   │   │   ├── pe.py
│   │   │   ├── ps.py
│   │   │   ├── ps_adv.py
│   │   │   ├── ps_flow.py
│   │   │   ├── synta.py
│   │   │   ├── tts.py
│   │   │   ├── tts_base.py
│   │   │   └── tts_utils.py
│   │   └── vocoder/
│   │       ├── dataset_utils.py
│   │       └── vocoder_base.py
│   ├── utils/
│   │   ├── __init__.py
│   │   ├── audio.py
│   │   ├── ckpt_utils.py
│   │   ├── cwt.py
│   │   ├── dtw.py
│   │   ├── hparams.py
│   │   ├── indexed_datasets.py
│   │   ├── multiprocess_utils.py
│   │   ├── os_utils.py
│   │   ├── pitch_utils.py
│   │   ├── pl_utils.py
│   │   ├── plot.py
│   │   ├── text_encoder.py
│   │   ├── text_norm.py
│   │   ├── training_utils.py
│   │   └── tts_utils.py
│   └── vocoders/
│       ├── __init__.py
│       ├── base_vocoder.py
│       ├── hifigan.py
│       ├── pwg.py
│       └── vocoder_utils.py
├── README.md
├── assets/
│   └── README.md
├── audio-chatgpt.py
├── audio_detection/
│   ├── __init__.py
│   ├── audio_infer/
│   │   ├── __init__.py
│   │   ├── metadata/
│   │   │   ├── black_list/
│   │   │   │   ├── groundtruth_weak_label_evaluation_set.csv
│   │   │   │   └── groundtruth_weak_label_testing_set.csv
│   │   │   └── class_labels_indices.csv
│   │   ├── pytorch/
│   │   │   ├── evaluate.py
│   │   │   ├── finetune_template.py
│   │   │   ├── inference.py
│   │   │   ├── losses.py
│   │   │   ├── main.py
│   │   │   ├── models.py
│   │   │   └── pytorch_utils.py
│   │   └── utils/
│   │       ├── config.py
│   │       ├── crash.py
│   │       ├── create_black_list.py
│   │       ├── create_indexes.py
│   │       ├── data_generator.py
│   │       ├── dataset.py
│   │       ├── plot_for_paper.py
│   │       ├── plot_statistics.py
│   │       └── utilities.py
│   └── target_sound_detection/
│       └── src/
│           ├── models.py
│           └── utils.py
├── audio_to_text/
│   ├── __init__.py
│   ├── captioning/
│   │   ├── __init__.py
│   │   ├── models/
│   │   │   ├── __init__.py
│   │   │   ├── base_model.py
│   │   │   ├── decoder.py
│   │   │   ├── encoder.py
│   │   │   ├── transformer_model.py
│   │   │   └── utils.py
│   │   └── utils/
│   │       ├── README.md
│   │       ├── __init__.py
│   │       ├── bert/
│   │       │   ├── create_sent_embedding.py
│   │       │   └── create_word_embedding.py
│   │       ├── build_vocab.py
│   │       ├── build_vocab_ltp.py
│   │       ├── build_vocab_spacy.py
│   │       ├── eval_round_robin.py
│   │       ├── fasttext/
│   │       │   └── create_word_embedding.py
│   │       ├── lr_scheduler.py
│   │       ├── model_eval_diff.py
│   │       ├── predict_nn.py
│   │       ├── remove_optimizer.py
│   │       ├── report_results.py
│   │       ├── tokenize_caption.py
│   │       ├── train_util.py
│   │       └── word2vec/
│   │           └── create_word_embedding.py
│   └── inference_waveform.py
├── download.sh
├── mono2binaural/
│   └── src/
│       ├── models.py
│       ├── utils.py
│       └── warping.py
├── requirements.txt
├── run.md
├── sound_extraction/
│   ├── model/
│   │   ├── LASSNet.py
│   │   ├── film.py
│   │   ├── modules.py
│   │   ├── resunet_film.py
│   │   └── text_encoder.py
│   └── utils/
│       ├── create_mixtures.py
│       ├── stft.py
│       └── wav_io.py
└── text_to_audio/
    └── Make_An_Audio/
        ├── configs/
        │   ├── img_to_audio/
        │   │   └── img2audio_args.yaml
        │   ├── inpaint/
        │   │   └── txt2audio_args.yaml
        │   └── text_to_audio/
        │       ├── clap_args.yaml
        │       ├── hifigan_args.yaml
        │       └── txt2audio_args.yaml
        ├── ldm/
        │   ├── data/
        │   │   └── extract_mel_spectrogram.py
        │   ├── lr_scheduler.py
        │   ├── models/
        │   │   ├── autoencoder.py
        │   │   ├── autoencoder_multi.py
        │   │   └── diffusion/
        │   │       ├── __init__.py
        │   │       ├── classifier.py
        │   │       ├── ddim.py
        │   │       ├── ddpm.py
        │   │       ├── ddpm_audio.py
        │   │       ├── ddpm_audio_inpaint.py
        │   │       └── plms.py
        │   ├── modules/
        │   │   ├── attention.py
        │   │   ├── diffusionmodules/
        │   │   │   ├── __init__.py
        │   │   │   ├── custom_openaimodel.py
        │   │   │   ├── model.py
        │   │   │   ├── openaimodel.py
        │   │   │   └── util.py
        │   │   ├── discriminator/
        │   │   │   ├── model.py
        │   │   │   └── multi_window_disc.py
        │   │   ├── distributions/
        │   │   │   ├── __init__.py
        │   │   │   └── distributions.py
        │   │   ├── ema.py
        │   │   ├── encoders/
        │   │   │   ├── CLAP/
        │   │   │   │   ├── CLAPWrapper.py
        │   │   │   │   ├── __init__.py
        │   │   │   │   ├── audio.py
        │   │   │   │   ├── clap.py
        │   │   │   │   ├── config.yml
        │   │   │   │   └── utils.py
        │   │   │   ├── __init__.py
        │   │   │   ├── modules.py
        │   │   │   └── open_clap/
        │   │   │       ├── __init__.py
        │   │   │       ├── bert.py
        │   │   │       ├── factory.py
        │   │   │       ├── feature_fusion.py
        │   │   │       ├── htsat.py
        │   │   │       ├── linear_probe.py
        │   │   │       ├── loss.py
        │   │   │       ├── model.py
        │   │   │       ├── model_configs/
        │   │   │       │   ├── HTSAT-base.json
        │   │   │       │   ├── HTSAT-large.json
        │   │   │       │   ├── HTSAT-tiny-win-1536.json
        │   │   │       │   ├── HTSAT-tiny.json
        │   │   │       │   ├── PANN-10.json
        │   │   │       │   ├── PANN-14-fmax-18k.json
        │   │   │       │   ├── PANN-14-fmax-8k-20s.json
        │   │   │       │   ├── PANN-14-tiny-transformer.json
        │   │   │       │   ├── PANN-14-win-1536.json
        │   │   │       │   ├── PANN-14.json
        │   │   │       │   ├── PANN-6.json
        │   │   │       │   ├── RN101-quickgelu.json
        │   │   │       │   ├── RN101.json
        │   │   │       │   ├── RN50-quickgelu.json
        │   │   │       │   ├── RN50.json
        │   │   │       │   ├── RN50x16.json
        │   │   │       │   ├── RN50x4.json
        │   │   │       │   ├── ViT-B-16.json
        │   │   │       │   ├── ViT-B-32-quickgelu.json
        │   │   │       │   ├── ViT-B-32.json
        │   │   │       │   └── ViT-L-14.json
        │   │   │       ├── openai.py
        │   │   │       ├── pann_model.py
        │   │   │       ├── pretrained.py
        │   │   │       ├── timm_model.py
        │   │   │       ├── tokenizer.py
        │   │   │       ├── transform.py
        │   │   │       ├── utils.py
        │   │   │       └── version.py
        │   │   ├── image_degradation/
        │   │   │   ├── __init__.py
        │   │   │   ├── bsrgan.py
        │   │   │   ├── bsrgan_light.py
        │   │   │   └── utils_image.py
        │   │   ├── losses_audio/
        │   │   │   ├── __init__.py
        │   │   │   ├── contperceptual.py
        │   │   │   ├── contperceptual_dis.py
        │   │   │   ├── lpaps.py
        │   │   │   ├── vggishish/
        │   │   │   │   ├── config/
        │   │   │   │   │   ├── melception.yaml
        │   │   │   │   │   └── vggish.yaml
        │   │   │   │   ├── data/
        │   │   │   │   │   ├── train_means_stds_melspec_10s_22050hz.txt
        │   │   │   │   │   ├── vggsound.csv
        │   │   │   │   │   ├── vggsound_test.txt
        │   │   │   │   │   ├── vggsound_train.txt
        │   │   │   │   │   └── vggsound_valid.txt
        │   │   │   │   ├── dataset.py
        │   │   │   │   ├── logger.py
        │   │   │   │   ├── loss.py
        │   │   │   │   ├── metrics.py
        │   │   │   │   ├── model.py
        │   │   │   │   ├── predict.py
        │   │   │   │   ├── train_melception.py
        │   │   │   │   ├── train_vggishish.py
        │   │   │   │   └── transforms.py
        │   │   │   └── vqperceptual.py
        │   │   └── x_transformer.py
        │   └── util.py
        ├── useful_ckpts/
        │   └── CLAP/
        │       └── config.yml
        ├── vocoder/
        │   ├── bigvgan/
        │   │   ├── __init__.py
        │   │   ├── activations.py
        │   │   ├── alias_free_torch/
        │   │   │   ├── __init__.py
        │   │   │   ├── act.py
        │   │   │   ├── filter.py
        │   │   │   └── resample.py
        │   │   └── models.py
        │   ├── hifigan/
        │   │   └── modules.py
        │   └── logs/
        │       └── hifi_0127/
        │           └── args.yml
        └── wav_evaluation/
            └── models/
                ├── CLAPWrapper.py
                ├── __init__.py
                ├── audio.py
                ├── clap.py
                └── utils.py