gitextract_p75g_f1y/ ├── .gitignore ├── Assistant/ │ ├── Agents.py │ ├── Chat.py │ ├── VirtualAssistant.py │ ├── __init__.py │ ├── get_audio.py │ ├── research_mode.py │ ├── semantic_scholar/ │ │ ├── S2_tools.py │ │ ├── __init__.py │ │ ├── agent_tools.py │ │ └── simple.py │ ├── tools.py │ ├── voice.py │ └── webui.py ├── LICENSE ├── README.md ├── TTS/ │ ├── .models.json │ ├── VERSION │ ├── __init__.py │ ├── api.py │ ├── bin/ │ │ ├── __init__.py │ │ ├── collect_env_info.py │ │ ├── compute_attention_masks.py │ │ ├── compute_embeddings.py │ │ ├── compute_statistics.py │ │ ├── eval_encoder.py │ │ ├── extract_tts_spectrograms.py │ │ ├── find_unique_chars.py │ │ ├── find_unique_phonemes.py │ │ ├── remove_silence_using_vad.py │ │ ├── resample.py │ │ ├── synthesize.py │ │ ├── train_encoder.py │ │ ├── train_tts.py │ │ ├── train_vocoder.py │ │ └── tune_wavegrad.py │ ├── config/ │ │ ├── __init__.py │ │ └── shared_configs.py │ ├── encoder/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── configs/ │ │ │ ├── base_encoder_config.py │ │ │ ├── emotion_encoder_config.py │ │ │ └── speaker_encoder_config.py │ │ ├── dataset.py │ │ ├── losses.py │ │ ├── models/ │ │ │ ├── base_encoder.py │ │ │ ├── lstm.py │ │ │ └── resnet.py │ │ ├── requirements.txt │ │ └── utils/ │ │ ├── __init__.py │ │ ├── generic_utils.py │ │ ├── io.py │ │ ├── prepare_voxceleb.py │ │ ├── training.py │ │ └── visual.py │ ├── model.py │ ├── server/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── conf.json │ │ ├── server.py │ │ └── templates/ │ │ ├── details.html │ │ └── index.html │ ├── tts/ │ │ ├── __init__.py │ │ ├── configs/ │ │ │ ├── __init__.py │ │ │ ├── align_tts_config.py │ │ │ ├── fast_pitch_config.py │ │ │ ├── fast_speech_config.py │ │ │ ├── fastspeech2_config.py │ │ │ ├── glow_tts_config.py │ │ │ ├── neuralhmm_tts_config.py │ │ │ ├── overflow_config.py │ │ │ ├── shared_configs.py │ │ │ ├── speedy_speech_config.py │ │ │ ├── tacotron2_config.py │ │ │ ├── tacotron_config.py │ │ │ └── vits_config.py │ │ ├── datasets/ │ │ │ ├── __init__.py │ │ │ ├── dataset.py │ │ │ └── formatters.py │ │ ├── layers/ │ │ │ ├── __init__.py │ │ │ ├── align_tts/ │ │ │ │ ├── __init__.py │ │ │ │ ├── duration_predictor.py │ │ │ │ └── mdn.py │ │ │ ├── feed_forward/ │ │ │ │ ├── __init__.py │ │ │ │ ├── decoder.py │ │ │ │ ├── duration_predictor.py │ │ │ │ └── encoder.py │ │ │ ├── generic/ │ │ │ │ ├── __init__.py │ │ │ │ ├── aligner.py │ │ │ │ ├── gated_conv.py │ │ │ │ ├── normalization.py │ │ │ │ ├── pos_encoding.py │ │ │ │ ├── res_conv_bn.py │ │ │ │ ├── time_depth_sep_conv.py │ │ │ │ ├── transformer.py │ │ │ │ └── wavenet.py │ │ │ ├── glow_tts/ │ │ │ │ ├── __init__.py │ │ │ │ ├── decoder.py │ │ │ │ ├── duration_predictor.py │ │ │ │ ├── encoder.py │ │ │ │ ├── glow.py │ │ │ │ └── transformer.py │ │ │ ├── losses.py │ │ │ ├── overflow/ │ │ │ │ ├── __init__.py │ │ │ │ ├── common_layers.py │ │ │ │ ├── decoder.py │ │ │ │ ├── neural_hmm.py │ │ │ │ └── plotting_utils.py │ │ │ ├── tacotron/ │ │ │ │ ├── __init__.py │ │ │ │ ├── attentions.py │ │ │ │ ├── capacitron_layers.py │ │ │ │ ├── common_layers.py │ │ │ │ ├── gst_layers.py │ │ │ │ ├── tacotron.py │ │ │ │ └── tacotron2.py │ │ │ └── vits/ │ │ │ ├── discriminator.py │ │ │ ├── networks.py │ │ │ ├── stochastic_duration_predictor.py │ │ │ └── transforms.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── align_tts.py │ │ │ ├── base_tacotron.py │ │ │ ├── base_tts.py │ │ │ ├── forward_tts.py │ │ │ ├── glow_tts.py │ │ │ ├── neuralhmm_tts.py │ │ │ ├── overflow.py │ │ │ ├── tacotron.py │ │ │ ├── tacotron2.py │ │ │ └── vits.py │ │ └── utils/ │ │ ├── __init__.py │ │ ├── data.py │ │ ├── helpers.py │ │ ├── languages.py │ │ ├── managers.py │ │ ├── measures.py │ │ ├── monotonic_align/ │ │ │ ├── __init__.py │ │ │ ├── core.c │ │ │ ├── core.pyx │ │ │ └── setup.py │ │ ├── speakers.py │ │ ├── ssim.py │ │ ├── synthesis.py │ │ ├── text/ │ │ │ ├── __init__.py │ │ │ ├── characters.py │ │ │ ├── chinese_mandarin/ │ │ │ │ ├── __init__.py │ │ │ │ ├── numbers.py │ │ │ │ ├── phonemizer.py │ │ │ │ └── pinyinToPhonemes.py │ │ │ ├── cleaners.py │ │ │ ├── cmudict.py │ │ │ ├── english/ │ │ │ │ ├── __init__.py │ │ │ │ ├── abbreviations.py │ │ │ │ ├── number_norm.py │ │ │ │ └── time_norm.py │ │ │ ├── french/ │ │ │ │ ├── __init__.py │ │ │ │ └── abbreviations.py │ │ │ ├── japanese/ │ │ │ │ ├── __init__.py │ │ │ │ └── phonemizer.py │ │ │ ├── korean/ │ │ │ │ ├── __init__.py │ │ │ │ ├── ko_dictionary.py │ │ │ │ ├── korean.py │ │ │ │ └── phonemizer.py │ │ │ ├── phonemizers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── base.py │ │ │ │ ├── espeak_wrapper.py │ │ │ │ ├── gruut_wrapper.py │ │ │ │ ├── ja_jp_phonemizer.py │ │ │ │ ├── ko_kr_phonemizer.py │ │ │ │ ├── multi_phonemizer.py │ │ │ │ └── zh_cn_phonemizer.py │ │ │ ├── punctuation.py │ │ │ └── tokenizer.py │ │ └── visual.py │ ├── utils/ │ │ ├── __init__.py │ │ ├── audio/ │ │ │ ├── __init__.py │ │ │ ├── numpy_transforms.py │ │ │ ├── processor.py │ │ │ └── torch_transforms.py │ │ ├── callbacks.py │ │ ├── capacitron_optimizer.py │ │ ├── distribute.py │ │ ├── download.py │ │ ├── downloaders.py │ │ ├── generic_utils.py │ │ ├── io.py │ │ ├── manage.py │ │ ├── radam.py │ │ ├── samplers.py │ │ ├── synthesizer.py │ │ ├── training.py │ │ └── vad.py │ ├── vc/ │ │ ├── configs/ │ │ │ ├── __init__.py │ │ │ ├── freevc_config.py │ │ │ └── shared_configs.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── base_vc.py │ │ │ └── freevc.py │ │ └── modules/ │ │ ├── __init__.py │ │ └── freevc/ │ │ ├── __init__.py │ │ ├── commons.py │ │ ├── mel_processing.py │ │ ├── modules.py │ │ ├── speaker_encoder/ │ │ │ ├── __init__.py │ │ │ ├── audio.py │ │ │ ├── hparams.py │ │ │ └── speaker_encoder.py │ │ └── wavlm/ │ │ ├── __init__.py │ │ ├── config.json │ │ ├── modules.py │ │ └── wavlm.py │ └── vocoder/ │ ├── README.md │ ├── __init__.py │ ├── configs/ │ │ ├── __init__.py │ │ ├── fullband_melgan_config.py │ │ ├── hifigan_config.py │ │ ├── melgan_config.py │ │ ├── multiband_melgan_config.py │ │ ├── parallel_wavegan_config.py │ │ ├── shared_configs.py │ │ ├── univnet_config.py │ │ ├── wavegrad_config.py │ │ └── wavernn_config.py │ ├── datasets/ │ │ ├── __init__.py │ │ ├── gan_dataset.py │ │ ├── preprocess.py │ │ ├── wavegrad_dataset.py │ │ └── wavernn_dataset.py │ ├── layers/ │ │ ├── __init__.py │ │ ├── hifigan.py │ │ ├── losses.py │ │ ├── lvc_block.py │ │ ├── melgan.py │ │ ├── parallel_wavegan.py │ │ ├── pqmf.py │ │ ├── upsample.py │ │ └── wavegrad.py │ ├── models/ │ │ ├── __init__.py │ │ ├── base_vocoder.py │ │ ├── fullband_melgan_generator.py │ │ ├── gan.py │ │ ├── hifigan_discriminator.py │ │ ├── hifigan_generator.py │ │ ├── melgan_discriminator.py │ │ ├── melgan_generator.py │ │ ├── melgan_multiscale_discriminator.py │ │ ├── multiband_melgan_generator.py │ │ ├── parallel_wavegan_discriminator.py │ │ ├── parallel_wavegan_generator.py │ │ ├── random_window_discriminator.py │ │ ├── univnet_discriminator.py │ │ ├── univnet_generator.py │ │ ├── wavegrad.py │ │ └── wavernn.py │ └── utils/ │ ├── __init__.py │ ├── distribution.py │ └── generic_utils.py ├── TTS_additional_material/ │ ├── .gitignore │ ├── .pre-commit-config.yaml │ ├── .pylintrc │ ├── .readthedocs.yml │ ├── CODE_OF_CONDUCT.md │ ├── README.md │ ├── hubconf.py │ └── requirements.txt ├── UpdateHistory.md ├── Vicuna/ │ ├── README.md │ ├── start-webui-vicuna-gpu.bat │ └── vicuna.ps1 ├── demos/ │ ├── chat_with_keyboard.py │ ├── demo_da_vinci.py │ ├── demo_elevenlabs.py │ ├── demo_google_search.py │ ├── demo_local_search_engine.py │ ├── demo_pyaudio.py │ ├── demo_research_mode.py │ └── demo_tts.py ├── env.txt ├── openai_api_chatbot.py ├── run.bat ├── saved_chats/ │ ├── 2023-03-13_ExploringtheConceptofDeepLearningandItsApplicationsintheAviationIndustry.txt │ ├── 2023-03-25_ExploringtheAmbitiousWorldofStarCitizenIsitRightforCasualGamers.txt │ ├── 2023-03-26_AnIntroductiontoArtificialIntelligence.txt │ ├── 2023-03-26_ArtificialIntelligence.txt │ ├── 2023-03-26_ExploringthePossibilityofHumanExtinction.txt │ ├── 2023-03-26_ExploringtheUseofTransformersinImageSegmentation.txt │ ├── 2023-03-26_FlutterDevelopment.txt │ ├── 2023-03-26_FlutterDevelopmentLearningMethodsandManagingAppState.txt │ ├── 2023-03-26_HumanExtinction.txt │ ├── 2023-03-26_NuclearandElectricPropulsioninSpaceExplorationAdvantagesandChallenges.txt │ ├── 2023-03-26_RevolutionizingHealthcare.txt │ ├── 2023-03-26_RevolutionizingHealthcarewithArtificialIntelligenceBenefitsandOpportunities.txt │ ├── 2023-03-26_SpacePropulsion.txt │ ├── 2023-03-26_TagImageSegmentation.txt │ ├── 2023-03-26_TipsforRunningScriptsatSystemStartuponWindowsandLinux.txt │ ├── 2023-03-26_TipsforRunningStartup.txt │ ├── 2023-03-28_AsteroidImpact.txt │ ├── 2023-03-28_ChoosingAppleComputer.txt │ ├── 2023-03-28_ChoosingtheRightAppleComputerforDeepLearningandMachineLearningM1vsM2ChipandOptimalMemorySize.txt │ ├── 2023-03-28_SizeandImpactHowBigDoesanAsteroidNeedtoBetoCauseSignificantDamage.txt │ ├── 2023-03-29_InteractiveSystem.txt │ ├── 2023-03-29_TraininganInteractiveSystemtoRespondtoCommandsandQuestions.txt │ ├── 2023-03-30_ExploringtheColdestTemperaturesonEarthRecordBreakingLowTemperaturesandHistoricalEstimates.txt │ ├── 2023-03-30_ExtremeColdTemperatures.txt │ ├── 2023-03-30_TagBeerBasics.txt │ ├── 2023-03-30_TagSkyColors.txt │ ├── 2023-03-30_TheBasicsofBeerUnderstandingthePopularAlcoholicBeverage.txt │ ├── 2023-03-30_TheColorsoftheSkyExploringtheHuesandVariations.txt │ ├── 2023-04-01_IslandTravel.txt │ ├── 2023-04-01_RegalieattivitàperunviaggioinIslanda.txt │ ├── 2023-04-02_SoundCardComponentsandADC.txt │ ├── 2023-04-02_UnderstandingtheComponentsofaSoundCardandtheFunctionofADC.txt │ ├── 2023-04-03_ExploringMultiHeadSelfAttentionforKeywordIdentificationinNaturalLanguageProcessing.txt │ ├── 2023-04-03_TagNaturalLanguageProcessing.txt │ ├── 2023-04-04_ExploringFeasibleOptionsforPoweringanIronManSuitSolarCellsBatteriesandNuclearReactors.txt │ ├── 2023-04-04_PoweringIronManSuit.txt │ ├── 2023-04-05_DockerContainerization.txt │ ├── 2023-04-07_ApproachesforTextto.txt │ ├── 2023-04-09_FitbitDataandSleep.txt │ ├── 2023-04-11_Fitness.txt │ ├── 2023-04-19_ChineseLanguages.txt │ ├── 2023-04-19_SyntheticMeat.txt │ ├── 2023-04-20_LabGrownMeat.txt │ ├── 2023-04-20_SyntheticMeatCont.txt │ ├── 2023-04-20_andTextto.txt │ ├── 2023-05-03_AIConversations.txt │ ├── 2023-05-03_MeaninginLife.txt │ ├── 2023-06-07_ImageProcessing.txt │ └── DATAFRAME.csv ├── setup.bat ├── test_TTS.py ├── tests.py ├── venv_requirements.txt ├── whisper_edits/ │ ├── __init__.py │ └── model.py └── workspaces/ └── Vision_09df18b156814c80a3e1c1ab544423fc/ ├── refy_suggestions/ │ ├── test.csv │ └── test.html └── results/ ├── papers.bib └── papers.csv