gitextract_xzebwrda/

├── .github/
│   ├── ISSUE_TEMPLATE/
│   │   ├── bug_report.md
│   │   └── feature_request.md
│   └── workflows/
│       ├── lint.yml
│       └── stale-issues.yml
├── .gitignore
├── .gitmodules
├── CODE_OF_CONDUCT.md
├── FAQ.md
├── LICENSE
├── README.md
├── cosyvoice/
│   ├── __init__.py
│   ├── bin/
│   │   ├── average_model.py
│   │   ├── export_jit.py
│   │   ├── export_onnx.py
│   │   └── train.py
│   ├── cli/
│   │   ├── __init__.py
│   │   ├── cosyvoice.py
│   │   ├── frontend.py
│   │   └── model.py
│   ├── dataset/
│   │   ├── __init__.py
│   │   ├── dataset.py
│   │   └── processor.py
│   ├── flow/
│   │   ├── DiT/
│   │   │   ├── dit.py
│   │   │   └── modules.py
│   │   ├── decoder.py
│   │   ├── flow.py
│   │   ├── flow_matching.py
│   │   └── length_regulator.py
│   ├── hifigan/
│   │   ├── discriminator.py
│   │   ├── f0_predictor.py
│   │   ├── generator.py
│   │   └── hifigan.py
│   ├── llm/
│   │   └── llm.py
│   ├── tokenizer/
│   │   ├── assets/
│   │   │   └── multilingual_zh_ja_yue_char_del.tiktoken
│   │   └── tokenizer.py
│   ├── transformer/
│   │   ├── __init__.py
│   │   ├── activation.py
│   │   ├── attention.py
│   │   ├── convolution.py
│   │   ├── decoder.py
│   │   ├── decoder_layer.py
│   │   ├── embedding.py
│   │   ├── encoder.py
│   │   ├── encoder_layer.py
│   │   ├── label_smoothing_loss.py
│   │   ├── positionwise_feed_forward.py
│   │   ├── subsampling.py
│   │   └── upsample_encoder.py
│   ├── utils/
│   │   ├── __init__.py
│   │   ├── class_utils.py
│   │   ├── common.py
│   │   ├── executor.py
│   │   ├── file_utils.py
│   │   ├── frontend_utils.py
│   │   ├── losses.py
│   │   ├── mask.py
│   │   ├── onnx.py
│   │   ├── scheduler.py
│   │   └── train_utils.py
│   └── vllm/
│       └── cosyvoice2.py
├── docker/
│   └── Dockerfile
├── example.py
├── examples/
│   ├── grpo/
│   │   └── cosyvoice2/
│   │       ├── Dockerfile
│   │       ├── README.md
│   │       ├── huggingface_to_pretrained.py
│   │       ├── infer_dataset.py
│   │       ├── prepare_data.py
│   │       ├── pretrained_to_huggingface.py
│   │       ├── requirements.txt
│   │       ├── reward_tts.py
│   │       ├── run.sh
│   │       ├── scripts/
│   │       │   ├── compute_wer.sh
│   │       │   └── offline-decode-files.py
│   │       └── token2wav_asr_server.py
│   ├── libritts/
│   │   ├── cosyvoice/
│   │   │   ├── conf/
│   │   │   │   ├── cosyvoice.yaml
│   │   │   │   └── ds_stage2.json
│   │   │   ├── local/
│   │   │   │   ├── download_and_untar.sh
│   │   │   │   ├── prepare_data.py
│   │   │   │   └── prepare_reject_sample.py
│   │   │   ├── path.sh
│   │   │   ├── run.sh
│   │   │   └── tts_text.json
│   │   ├── cosyvoice2/
│   │   │   ├── conf/
│   │   │   │   ├── cosyvoice2.yaml
│   │   │   │   └── ds_stage2.json
│   │   │   ├── run.sh
│   │   │   └── run_dpo.sh
│   │   └── cosyvoice3/
│   │       ├── conf/
│   │       │   ├── cosyvoice3.yaml
│   │       │   └── ds_stage2.json
│   │       └── run.sh
│   └── magicdata-read/
│       └── cosyvoice/
│           ├── local/
│           │   ├── download_and_untar.sh
│           │   └── prepare_data.py
│           ├── run.sh
│           └── tts_text.json
├── requirements.txt
├── runtime/
│   ├── python/
│   │   ├── Dockerfile
│   │   ├── fastapi/
│   │   │   ├── client.py
│   │   │   └── server.py
│   │   └── grpc/
│   │       ├── client.py
│   │       ├── cosyvoice.proto
│   │       └── server.py
│   └── triton_trtllm/
│       ├── Dockerfile.server
│       ├── README.Cosyvoice2.DiT.md
│       ├── README.Cosyvoice2.Unet.md
│       ├── README.Cosyvoice3.md
│       ├── README.md
│       ├── client_grpc.py
│       ├── client_http.py
│       ├── docker-compose.cosyvoice2.dit.yml
│       ├── docker-compose.cosyvoice2.unet.yml
│       ├── docker-compose.cosyvoice3.yml
│       ├── infer_cosyvoice3.py
│       ├── model_repo/
│       │   ├── audio_tokenizer/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   ├── cosyvoice2/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   ├── cosyvoice2_dit/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   ├── speaker_embedding/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   ├── tensorrt_llm/
│       │   │   ├── 1/
│       │   │   │   └── .gitkeep
│       │   │   └── config.pbtxt
│       │   ├── token2wav/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   └── token2wav_dit/
│       │       ├── 1/
│       │       │   ├── model.py
│       │       │   └── token2wav_dit.py
│       │       └── config.pbtxt
│       ├── model_repo_cosyvoice3/
│       │   ├── audio_tokenizer/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   ├── cosyvoice3/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   ├── speaker_embedding/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   ├── token2wav/
│       │   │   ├── 1/
│       │   │   │   └── model.py
│       │   │   └── config.pbtxt
│       │   └── vocoder/
│       │       ├── 1/
│       │       │   └── model.py
│       │       └── config.pbtxt
│       ├── offline_inference.py
│       ├── requirements.txt
│       ├── run.sh
│       ├── run_cosyvoice3.sh
│       ├── run_stepaudio2_dit_token2wav.sh
│       ├── scripts/
│       │   ├── convert_checkpoint.py
│       │   ├── convert_cosyvoice3_to_hf.py
│       │   ├── fill_template.py
│       │   └── test_llm.py
│       ├── streaming_inference.py
│       ├── token2wav.py
│       └── token2wav_cosyvoice3.py
├── tools/
│   ├── extract_embedding.py
│   ├── extract_speech_token.py
│   └── make_parquet_list.py
├── vllm_example.py
└── webui.py