gitextract_j2uu9au5/ ├── .dockerignore ├── .github/ │ └── workflows/ │ ├── ci.yml │ └── publish-docker.yml ├── .gitignore ├── AGENTS.md ├── CHANGES.md ├── CLAUDE.md ├── CONTRIBUTING.md ├── DEV_NOTES.md ├── Dockerfile ├── Dockerfile.cpu ├── LICENSE ├── README.md ├── benchmark_mlx_simul.py ├── benchmarks/ │ ├── h100/ │ │ ├── bench_voxtral_hf_batch.py │ │ ├── bench_voxtral_vllm_realtime.py │ │ ├── generate_figures.py │ │ └── results.json │ └── m5/ │ ├── bench_0.6b_simul_500.json │ ├── bench_1.7b_simul_500.json │ ├── generate_figures.py │ └── results.json ├── chrome-extension/ │ ├── README.md │ ├── background.js │ ├── manifest.json │ ├── requestPermissions.html │ ├── requestPermissions.js │ └── sidepanel.js ├── compose.yml ├── docs/ │ ├── API.md │ ├── alignement_principles.md │ ├── default_and_custom_models.md │ ├── supported_languages.md │ ├── technical_integration.md │ └── troubleshooting.md ├── pyproject.toml ├── scripts/ │ ├── alignment_heads_qwen3_asr_0.6B.json │ ├── alignment_heads_qwen3_asr_1.7B.json │ ├── alignment_heads_qwen3_asr_1.7B_v2.json │ ├── convert_hf_whisper.py │ ├── create_long_samples.py │ ├── detect_alignment_heads_qwen3.py │ ├── determine_alignment_heads.py │ ├── generate_architecture.py │ ├── python_support_matrix.py │ ├── run_scatter_benchmark.py │ └── sync_extension.py ├── tests/ │ ├── __init__.py │ └── test_pipeline.py └── whisperlivekit/ ├── __init__.py ├── audio_processor.py ├── backend_support.py ├── basic_server.py ├── benchmark/ │ ├── __init__.py │ ├── compat.py │ ├── datasets.py │ ├── metrics.py │ ├── report.py │ └── runner.py ├── cascade_bridge.py ├── cli.py ├── config.py ├── core.py ├── deepgram_compat.py ├── diarization/ │ ├── __init__.py │ ├── diart_backend.py │ ├── sortformer_backend.py │ └── utils.py ├── diff_protocol.py ├── ffmpeg_manager.py ├── local_agreement/ │ ├── __init__.py │ ├── backends.py │ ├── online_asr.py │ └── whisper_online.py ├── metrics.py ├── metrics_collector.py ├── model_mapping.py ├── model_paths.py ├── parse_args.py ├── qwen3_asr.py ├── qwen3_mlx_asr.py ├── qwen3_mlx_simul.py ├── qwen3_simul.py ├── qwen3_simul_kv.py ├── session_asr_proxy.py ├── silero_vad_iterator.py ├── silero_vad_models/ │ ├── __init__.py │ ├── silero_vad.jit │ ├── silero_vad.onnx │ ├── silero_vad_16k_op15.onnx │ └── silero_vad_half.onnx ├── simul_whisper/ │ ├── __init__.py │ ├── align_att_base.py │ ├── backend.py │ ├── beam.py │ ├── config.py │ ├── decoder_state.py │ ├── eow_detection.py │ ├── mlx/ │ │ ├── __init__.py │ │ ├── decoder_state.py │ │ ├── decoders.py │ │ └── simul_whisper.py │ ├── mlx_encoder.py │ ├── simul_whisper.py │ └── token_buffer.py ├── test_client.py ├── test_data.py ├── test_harness.py ├── thread_safety.py ├── timed_objects.py ├── tokens_alignment.py ├── vllm_realtime.py ├── voxtral_hf_streaming.py ├── voxtral_mlx/ │ ├── __init__.py │ ├── loader.py │ ├── model.py │ └── spectrogram.py ├── voxtral_mlx_asr.py ├── warmup.py ├── web/ │ ├── __init__.py │ ├── live_transcription.css │ ├── live_transcription.html │ ├── live_transcription.js │ ├── pcm_worklet.js │ ├── recorder_worker.js │ └── web_interface.py └── whisper/ ├── __init__.py ├── __main__.py ├── assets/ │ ├── __init__.py │ ├── gpt2.tiktoken │ ├── mel_filters.npz │ └── multilingual.tiktoken ├── audio.py ├── decoding.py ├── model.py ├── normalizers/ │ ├── __init__.py │ ├── basic.py │ ├── english.json │ └── english.py ├── timing.py ├── tokenizer.py ├── transcribe.py ├── triton_ops.py ├── utils.py ├── val.py └── version.py