gitextract_mez1vc95/ ├── .gitignore ├── LICENSE ├── NeuralSeq/ │ ├── LICENSE │ ├── README.md │ ├── configs/ │ │ ├── config_base.yaml │ │ ├── singing/ │ │ │ ├── base.yaml │ │ │ └── fs2.yaml │ │ └── tts/ │ │ ├── base.yaml │ │ ├── base_zh.yaml │ │ ├── emotion/ │ │ │ ├── base_text2mel.yaml │ │ │ └── pre_align.py │ │ ├── fs2.yaml │ │ ├── hifigan.yaml │ │ ├── libritts/ │ │ │ ├── base_text2mel.yaml │ │ │ ├── fs2.yaml │ │ │ ├── pre_align.py │ │ │ └── pwg.yaml │ │ ├── lj/ │ │ │ ├── base_mel2wav.yaml │ │ │ ├── base_text2mel.yaml │ │ │ ├── fs2.yaml │ │ │ ├── hifigan.yaml │ │ │ └── pwg.yaml │ │ └── pwg.yaml │ ├── data_gen/ │ │ └── tts/ │ │ ├── base_binarizer.py │ │ ├── base_binarizer_emotion.py │ │ ├── base_preprocess.py │ │ ├── binarizer_zh.py │ │ ├── data_gen_utils.py │ │ ├── emotion/ │ │ │ ├── audio.py │ │ │ ├── inference.py │ │ │ ├── model.py │ │ │ ├── params_data.py │ │ │ ├── params_model.py │ │ │ └── test_emotion.py │ │ ├── txt_processors/ │ │ │ ├── __init__.py │ │ │ ├── base_text_processor.py │ │ │ ├── en.py │ │ │ ├── zh.py │ │ │ └── zh_g2pM.py │ │ └── wav_processors/ │ │ ├── __init__.py │ │ ├── base_processor.py │ │ └── common_processors.py │ ├── egs/ │ │ ├── datasets/ │ │ │ └── audio/ │ │ │ ├── emotion/ │ │ │ │ ├── base_text2mel.yaml │ │ │ │ └── pre_align.py │ │ │ ├── libritts/ │ │ │ │ ├── base_text2mel.yaml │ │ │ │ ├── fs2.yaml │ │ │ │ ├── pre_align.py │ │ │ │ └── pwg.yaml │ │ │ ├── lj/ │ │ │ │ ├── base_mel2wav.yaml │ │ │ │ ├── preprocess.py │ │ │ │ └── pwg.yaml │ │ │ └── vctk/ │ │ │ ├── base_mel2wav.yaml │ │ │ ├── fs2.yaml │ │ │ ├── pre_align.py │ │ │ └── pwg.yaml │ │ └── egs_bases/ │ │ ├── config_base.yaml │ │ ├── svs/ │ │ │ ├── base.yaml │ │ │ ├── lj_ds_beta6.yaml │ │ │ ├── midi/ │ │ │ │ ├── cascade/ │ │ │ │ │ └── opencs/ │ │ │ │ │ ├── aux_rel.yaml │ │ │ │ │ ├── ds60_rel.yaml │ │ │ │ │ └── opencpop_statis.yaml │ │ │ │ ├── e2e/ │ │ │ │ │ ├── opencpop/ │ │ │ │ │ │ ├── ds1000-10dil.yaml │ │ │ │ │ │ ├── ds1000.yaml │ │ │ │ │ │ └── ds100_adj_rel.yaml │ │ │ │ │ └── popcs/ │ │ │ │ │ └── ds100_adj_rel.yaml │ │ │ │ └── pe.yaml │ │ │ ├── popcs_ds_beta6.yaml │ │ │ ├── popcs_ds_beta6_offline.yaml │ │ │ └── popcs_fs2.yaml │ │ └── tts/ │ │ ├── base.yaml │ │ ├── base_zh.yaml │ │ ├── fs2.yaml │ │ ├── fs2_adv.yaml │ │ ├── ps.yaml │ │ ├── ps_flow.yaml │ │ ├── ps_flow_small.yaml │ │ └── vocoder/ │ │ ├── base.yaml │ │ ├── hifigan.yaml │ │ └── pwg.yaml │ ├── gitattributes │ ├── inference/ │ │ ├── svs/ │ │ │ ├── base_svs_infer.py │ │ │ ├── ds_cascade.py │ │ │ ├── ds_e2e.py │ │ │ └── opencpop/ │ │ │ ├── cpop_pinyin2ph.txt │ │ │ └── map.py │ │ └── tts/ │ │ ├── GenerSpeech.py │ │ ├── PortaSpeech.py │ │ └── base_tts_infer.py │ ├── modules/ │ │ ├── GenerSpeech/ │ │ │ ├── config/ │ │ │ │ └── generspeech.yaml │ │ │ ├── model/ │ │ │ │ ├── generspeech.py │ │ │ │ ├── glow_modules.py │ │ │ │ ├── mixstyle.py │ │ │ │ ├── prosody_util.py │ │ │ │ └── wavenet.py │ │ │ └── task/ │ │ │ ├── dataset.py │ │ │ └── generspeech.py │ │ ├── __init__.py │ │ ├── commons/ │ │ │ ├── align_ops.py │ │ │ ├── common_layers.py │ │ │ ├── conv.py │ │ │ ├── espnet_positional_embedding.py │ │ │ ├── normalizing_flow/ │ │ │ │ ├── glow_modules.py │ │ │ │ ├── res_flow.py │ │ │ │ └── utils.py │ │ │ ├── rel_transformer.py │ │ │ ├── ssim.py │ │ │ ├── transformer.py │ │ │ └── wavenet.py │ │ ├── diff/ │ │ │ ├── candidate_decoder.py │ │ │ ├── diffusion.py │ │ │ ├── net.py │ │ │ └── shallow_diffusion_tts.py │ │ ├── diffsinger_midi/ │ │ │ └── fs2.py │ │ ├── fastspeech/ │ │ │ ├── fs2.py │ │ │ ├── pe.py │ │ │ └── tts_modules.py │ │ ├── hifigan/ │ │ │ ├── hifigan.py │ │ │ └── mel_utils.py │ │ ├── parallel_wavegan/ │ │ │ ├── __init__.py │ │ │ ├── layers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── causal_conv.py │ │ │ │ ├── pqmf.py │ │ │ │ ├── residual_block.py │ │ │ │ ├── residual_stack.py │ │ │ │ ├── tf_layers.py │ │ │ │ └── upsample.py │ │ │ ├── losses/ │ │ │ │ ├── __init__.py │ │ │ │ └── stft_loss.py │ │ │ ├── models/ │ │ │ │ ├── __init__.py │ │ │ │ ├── melgan.py │ │ │ │ ├── parallel_wavegan.py │ │ │ │ └── source.py │ │ │ ├── optimizers/ │ │ │ │ ├── __init__.py │ │ │ │ └── radam.py │ │ │ ├── stft_loss.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ └── utils.py │ │ └── syntaspeech/ │ │ ├── multi_window_disc.py │ │ ├── syntactic_graph_buider.py │ │ ├── syntactic_graph_encoder.py │ │ └── syntaspeech.py │ ├── tasks/ │ │ ├── base_task.py │ │ ├── run.py │ │ ├── svs/ │ │ │ ├── __init__.py │ │ │ ├── diffsinger_task.py │ │ │ ├── diffspeech_task.py │ │ │ └── task.py │ │ ├── tts/ │ │ │ ├── dataset_utils.py │ │ │ ├── fs2.py │ │ │ ├── fs2_adv.py │ │ │ ├── fs2_utils.py │ │ │ ├── pe.py │ │ │ ├── ps.py │ │ │ ├── ps_adv.py │ │ │ ├── ps_flow.py │ │ │ ├── synta.py │ │ │ ├── tts.py │ │ │ ├── tts_base.py │ │ │ └── tts_utils.py │ │ └── vocoder/ │ │ ├── dataset_utils.py │ │ └── vocoder_base.py │ ├── utils/ │ │ ├── __init__.py │ │ ├── audio.py │ │ ├── ckpt_utils.py │ │ ├── cwt.py │ │ ├── dtw.py │ │ ├── hparams.py │ │ ├── indexed_datasets.py │ │ ├── multiprocess_utils.py │ │ ├── os_utils.py │ │ ├── pitch_utils.py │ │ ├── pl_utils.py │ │ ├── plot.py │ │ ├── text_encoder.py │ │ ├── text_norm.py │ │ ├── training_utils.py │ │ └── tts_utils.py │ └── vocoders/ │ ├── __init__.py │ ├── base_vocoder.py │ ├── hifigan.py │ ├── pwg.py │ └── vocoder_utils.py ├── README.md ├── assets/ │ └── README.md ├── audio-chatgpt.py ├── audio_detection/ │ ├── __init__.py │ ├── audio_infer/ │ │ ├── __init__.py │ │ ├── metadata/ │ │ │ ├── black_list/ │ │ │ │ ├── groundtruth_weak_label_evaluation_set.csv │ │ │ │ └── groundtruth_weak_label_testing_set.csv │ │ │ └── class_labels_indices.csv │ │ ├── pytorch/ │ │ │ ├── evaluate.py │ │ │ ├── finetune_template.py │ │ │ ├── inference.py │ │ │ ├── losses.py │ │ │ ├── main.py │ │ │ ├── models.py │ │ │ └── pytorch_utils.py │ │ └── utils/ │ │ ├── config.py │ │ ├── crash.py │ │ ├── create_black_list.py │ │ ├── create_indexes.py │ │ ├── data_generator.py │ │ ├── dataset.py │ │ ├── plot_for_paper.py │ │ ├── plot_statistics.py │ │ └── utilities.py │ └── target_sound_detection/ │ └── src/ │ ├── models.py │ └── utils.py ├── audio_to_text/ │ ├── __init__.py │ ├── captioning/ │ │ ├── __init__.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── base_model.py │ │ │ ├── decoder.py │ │ │ ├── encoder.py │ │ │ ├── transformer_model.py │ │ │ └── utils.py │ │ └── utils/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── bert/ │ │ │ ├── create_sent_embedding.py │ │ │ └── create_word_embedding.py │ │ ├── build_vocab.py │ │ ├── build_vocab_ltp.py │ │ ├── build_vocab_spacy.py │ │ ├── eval_round_robin.py │ │ ├── fasttext/ │ │ │ └── create_word_embedding.py │ │ ├── lr_scheduler.py │ │ ├── model_eval_diff.py │ │ ├── predict_nn.py │ │ ├── remove_optimizer.py │ │ ├── report_results.py │ │ ├── tokenize_caption.py │ │ ├── train_util.py │ │ └── word2vec/ │ │ └── create_word_embedding.py │ └── inference_waveform.py ├── download.sh ├── mono2binaural/ │ └── src/ │ ├── models.py │ ├── utils.py │ └── warping.py ├── requirements.txt ├── run.md ├── sound_extraction/ │ ├── model/ │ │ ├── LASSNet.py │ │ ├── film.py │ │ ├── modules.py │ │ ├── resunet_film.py │ │ └── text_encoder.py │ └── utils/ │ ├── create_mixtures.py │ ├── stft.py │ └── wav_io.py └── text_to_audio/ └── Make_An_Audio/ ├── configs/ │ ├── img_to_audio/ │ │ └── img2audio_args.yaml │ ├── inpaint/ │ │ └── txt2audio_args.yaml │ └── text_to_audio/ │ ├── clap_args.yaml │ ├── hifigan_args.yaml │ └── txt2audio_args.yaml ├── ldm/ │ ├── data/ │ │ └── extract_mel_spectrogram.py │ ├── lr_scheduler.py │ ├── models/ │ │ ├── autoencoder.py │ │ ├── autoencoder_multi.py │ │ └── diffusion/ │ │ ├── __init__.py │ │ ├── classifier.py │ │ ├── ddim.py │ │ ├── ddpm.py │ │ ├── ddpm_audio.py │ │ ├── ddpm_audio_inpaint.py │ │ └── plms.py │ ├── modules/ │ │ ├── attention.py │ │ ├── diffusionmodules/ │ │ │ ├── __init__.py │ │ │ ├── custom_openaimodel.py │ │ │ ├── model.py │ │ │ ├── openaimodel.py │ │ │ └── util.py │ │ ├── discriminator/ │ │ │ ├── model.py │ │ │ └── multi_window_disc.py │ │ ├── distributions/ │ │ │ ├── __init__.py │ │ │ └── distributions.py │ │ ├── ema.py │ │ ├── encoders/ │ │ │ ├── CLAP/ │ │ │ │ ├── CLAPWrapper.py │ │ │ │ ├── __init__.py │ │ │ │ ├── audio.py │ │ │ │ ├── clap.py │ │ │ │ ├── config.yml │ │ │ │ └── utils.py │ │ │ ├── __init__.py │ │ │ ├── modules.py │ │ │ └── open_clap/ │ │ │ ├── __init__.py │ │ │ ├── bert.py │ │ │ ├── factory.py │ │ │ ├── feature_fusion.py │ │ │ ├── htsat.py │ │ │ ├── linear_probe.py │ │ │ ├── loss.py │ │ │ ├── model.py │ │ │ ├── model_configs/ │ │ │ │ ├── HTSAT-base.json │ │ │ │ ├── HTSAT-large.json │ │ │ │ ├── HTSAT-tiny-win-1536.json │ │ │ │ ├── HTSAT-tiny.json │ │ │ │ ├── PANN-10.json │ │ │ │ ├── PANN-14-fmax-18k.json │ │ │ │ ├── PANN-14-fmax-8k-20s.json │ │ │ │ ├── PANN-14-tiny-transformer.json │ │ │ │ ├── PANN-14-win-1536.json │ │ │ │ ├── PANN-14.json │ │ │ │ ├── PANN-6.json │ │ │ │ ├── RN101-quickgelu.json │ │ │ │ ├── RN101.json │ │ │ │ ├── RN50-quickgelu.json │ │ │ │ ├── RN50.json │ │ │ │ ├── RN50x16.json │ │ │ │ ├── RN50x4.json │ │ │ │ ├── ViT-B-16.json │ │ │ │ ├── ViT-B-32-quickgelu.json │ │ │ │ ├── ViT-B-32.json │ │ │ │ └── ViT-L-14.json │ │ │ ├── openai.py │ │ │ ├── pann_model.py │ │ │ ├── pretrained.py │ │ │ ├── timm_model.py │ │ │ ├── tokenizer.py │ │ │ ├── transform.py │ │ │ ├── utils.py │ │ │ └── version.py │ │ ├── image_degradation/ │ │ │ ├── __init__.py │ │ │ ├── bsrgan.py │ │ │ ├── bsrgan_light.py │ │ │ └── utils_image.py │ │ ├── losses_audio/ │ │ │ ├── __init__.py │ │ │ ├── contperceptual.py │ │ │ ├── contperceptual_dis.py │ │ │ ├── lpaps.py │ │ │ ├── vggishish/ │ │ │ │ ├── config/ │ │ │ │ │ ├── melception.yaml │ │ │ │ │ └── vggish.yaml │ │ │ │ ├── data/ │ │ │ │ │ ├── train_means_stds_melspec_10s_22050hz.txt │ │ │ │ │ ├── vggsound.csv │ │ │ │ │ ├── vggsound_test.txt │ │ │ │ │ ├── vggsound_train.txt │ │ │ │ │ └── vggsound_valid.txt │ │ │ │ ├── dataset.py │ │ │ │ ├── logger.py │ │ │ │ ├── loss.py │ │ │ │ ├── metrics.py │ │ │ │ ├── model.py │ │ │ │ ├── predict.py │ │ │ │ ├── train_melception.py │ │ │ │ ├── train_vggishish.py │ │ │ │ └── transforms.py │ │ │ └── vqperceptual.py │ │ └── x_transformer.py │ └── util.py ├── useful_ckpts/ │ └── CLAP/ │ └── config.yml ├── vocoder/ │ ├── bigvgan/ │ │ ├── __init__.py │ │ ├── activations.py │ │ ├── alias_free_torch/ │ │ │ ├── __init__.py │ │ │ ├── act.py │ │ │ ├── filter.py │ │ │ └── resample.py │ │ └── models.py │ ├── hifigan/ │ │ └── modules.py │ └── logs/ │ └── hifi_0127/ │ └── args.yml └── wav_evaluation/ └── models/ ├── CLAPWrapper.py ├── __init__.py ├── audio.py ├── clap.py └── utils.py