gitextract_xzebwrda/ ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── bug_report.md │ │ └── feature_request.md │ └── workflows/ │ ├── lint.yml │ └── stale-issues.yml ├── .gitignore ├── .gitmodules ├── CODE_OF_CONDUCT.md ├── FAQ.md ├── LICENSE ├── README.md ├── cosyvoice/ │ ├── __init__.py │ ├── bin/ │ │ ├── average_model.py │ │ ├── export_jit.py │ │ ├── export_onnx.py │ │ └── train.py │ ├── cli/ │ │ ├── __init__.py │ │ ├── cosyvoice.py │ │ ├── frontend.py │ │ └── model.py │ ├── dataset/ │ │ ├── __init__.py │ │ ├── dataset.py │ │ └── processor.py │ ├── flow/ │ │ ├── DiT/ │ │ │ ├── dit.py │ │ │ └── modules.py │ │ ├── decoder.py │ │ ├── flow.py │ │ ├── flow_matching.py │ │ └── length_regulator.py │ ├── hifigan/ │ │ ├── discriminator.py │ │ ├── f0_predictor.py │ │ ├── generator.py │ │ └── hifigan.py │ ├── llm/ │ │ └── llm.py │ ├── tokenizer/ │ │ ├── assets/ │ │ │ └── multilingual_zh_ja_yue_char_del.tiktoken │ │ └── tokenizer.py │ ├── transformer/ │ │ ├── __init__.py │ │ ├── activation.py │ │ ├── attention.py │ │ ├── convolution.py │ │ ├── decoder.py │ │ ├── decoder_layer.py │ │ ├── embedding.py │ │ ├── encoder.py │ │ ├── encoder_layer.py │ │ ├── label_smoothing_loss.py │ │ ├── positionwise_feed_forward.py │ │ ├── subsampling.py │ │ └── upsample_encoder.py │ ├── utils/ │ │ ├── __init__.py │ │ ├── class_utils.py │ │ ├── common.py │ │ ├── executor.py │ │ ├── file_utils.py │ │ ├── frontend_utils.py │ │ ├── losses.py │ │ ├── mask.py │ │ ├── onnx.py │ │ ├── scheduler.py │ │ └── train_utils.py │ └── vllm/ │ └── cosyvoice2.py ├── docker/ │ └── Dockerfile ├── example.py ├── examples/ │ ├── grpo/ │ │ └── cosyvoice2/ │ │ ├── Dockerfile │ │ ├── README.md │ │ ├── huggingface_to_pretrained.py │ │ ├── infer_dataset.py │ │ ├── prepare_data.py │ │ ├── pretrained_to_huggingface.py │ │ ├── requirements.txt │ │ ├── reward_tts.py │ │ ├── run.sh │ │ ├── scripts/ │ │ │ ├── compute_wer.sh │ │ │ └── offline-decode-files.py │ │ └── token2wav_asr_server.py │ ├── libritts/ │ │ ├── cosyvoice/ │ │ │ ├── conf/ │ │ │ │ ├── cosyvoice.yaml │ │ │ │ └── ds_stage2.json │ │ │ ├── local/ │ │ │ │ ├── download_and_untar.sh │ │ │ │ ├── prepare_data.py │ │ │ │ └── prepare_reject_sample.py │ │ │ ├── path.sh │ │ │ ├── run.sh │ │ │ └── tts_text.json │ │ ├── cosyvoice2/ │ │ │ ├── conf/ │ │ │ │ ├── cosyvoice2.yaml │ │ │ │ └── ds_stage2.json │ │ │ ├── run.sh │ │ │ └── run_dpo.sh │ │ └── cosyvoice3/ │ │ ├── conf/ │ │ │ ├── cosyvoice3.yaml │ │ │ └── ds_stage2.json │ │ └── run.sh │ └── magicdata-read/ │ └── cosyvoice/ │ ├── local/ │ │ ├── download_and_untar.sh │ │ └── prepare_data.py │ ├── run.sh │ └── tts_text.json ├── requirements.txt ├── runtime/ │ ├── python/ │ │ ├── Dockerfile │ │ ├── fastapi/ │ │ │ ├── client.py │ │ │ └── server.py │ │ └── grpc/ │ │ ├── client.py │ │ ├── cosyvoice.proto │ │ └── server.py │ └── triton_trtllm/ │ ├── Dockerfile.server │ ├── README.Cosyvoice2.DiT.md │ ├── README.Cosyvoice2.Unet.md │ ├── README.Cosyvoice3.md │ ├── README.md │ ├── client_grpc.py │ ├── client_http.py │ ├── docker-compose.cosyvoice2.dit.yml │ ├── docker-compose.cosyvoice2.unet.yml │ ├── docker-compose.cosyvoice3.yml │ ├── infer_cosyvoice3.py │ ├── model_repo/ │ │ ├── audio_tokenizer/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── cosyvoice2/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── cosyvoice2_dit/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── speaker_embedding/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── tensorrt_llm/ │ │ │ ├── 1/ │ │ │ │ └── .gitkeep │ │ │ └── config.pbtxt │ │ ├── token2wav/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ └── token2wav_dit/ │ │ ├── 1/ │ │ │ ├── model.py │ │ │ └── token2wav_dit.py │ │ └── config.pbtxt │ ├── model_repo_cosyvoice3/ │ │ ├── audio_tokenizer/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── cosyvoice3/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── speaker_embedding/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── token2wav/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ └── vocoder/ │ │ ├── 1/ │ │ │ └── model.py │ │ └── config.pbtxt │ ├── offline_inference.py │ ├── requirements.txt │ ├── run.sh │ ├── run_cosyvoice3.sh │ ├── run_stepaudio2_dit_token2wav.sh │ ├── scripts/ │ │ ├── convert_checkpoint.py │ │ ├── convert_cosyvoice3_to_hf.py │ │ ├── fill_template.py │ │ └── test_llm.py │ ├── streaming_inference.py │ ├── token2wav.py │ └── token2wav_cosyvoice3.py ├── tools/ │ ├── extract_embedding.py │ ├── extract_speech_token.py │ └── make_parquet_list.py ├── vllm_example.py └── webui.py