gitextract_tsupof0f/ ├── .github/ │ └── workflows/ │ ├── check-style.yaml │ ├── push-docker-image.yaml │ └── run-tests.yaml ├── .gitignore ├── Dockerfile ├── LICENSE ├── README.md ├── benchmarks/ │ ├── benchmark_forward.py │ ├── benchmark_inference.py │ └── benchmark_training.py ├── examples/ │ ├── prompt-tuning-personachat.ipynb │ └── prompt-tuning-sst2.ipynb ├── pyproject.toml ├── setup.cfg ├── src/ │ └── petals/ │ ├── __init__.py │ ├── cli/ │ │ ├── __init__.py │ │ ├── run_dht.py │ │ ├── run_prod_server.sh │ │ └── run_server.py │ ├── client/ │ │ ├── __init__.py │ │ ├── config.py │ │ ├── from_pretrained.py │ │ ├── inference_session.py │ │ ├── lm_head.py │ │ ├── ptune.py │ │ ├── remote_forward_backward.py │ │ ├── remote_generation.py │ │ ├── remote_sequential.py │ │ ├── routing/ │ │ │ ├── __init__.py │ │ │ ├── sequence_info.py │ │ │ ├── sequence_manager.py │ │ │ └── spending_policy.py │ │ └── sequential_autograd.py │ ├── constants.py │ ├── data_structures.py │ ├── dht_utils.py │ ├── models/ │ │ ├── __init__.py │ │ ├── bloom/ │ │ │ ├── __init__.py │ │ │ ├── block.py │ │ │ ├── config.py │ │ │ └── model.py │ │ ├── falcon/ │ │ │ ├── __init__.py │ │ │ ├── block.py │ │ │ ├── config.py │ │ │ └── model.py │ │ ├── llama/ │ │ │ ├── __init__.py │ │ │ ├── block.py │ │ │ ├── config.py │ │ │ ├── model.py │ │ │ └── speculative_model.py │ │ └── mixtral/ │ │ ├── __init__.py │ │ ├── block.py │ │ ├── config.py │ │ └── model.py │ ├── server/ │ │ ├── __init__.py │ │ ├── backend.py │ │ ├── block_functions.py │ │ ├── block_selection.py │ │ ├── block_utils.py │ │ ├── from_pretrained.py │ │ ├── handler.py │ │ ├── memory_cache.py │ │ ├── reachability.py │ │ ├── server.py │ │ ├── task_pool.py │ │ ├── task_prioritizer.py │ │ └── throughput.py │ └── utils/ │ ├── __init__.py │ ├── asyncio.py │ ├── auto_config.py │ ├── convert_block.py │ ├── cuda_graphs.py │ ├── dht.py │ ├── disk_cache.py │ ├── hf_auth.py │ ├── logging.py │ ├── misc.py │ ├── packaging.py │ ├── peft.py │ ├── ping.py │ ├── random.py │ └── version.py └── tests/ ├── bootstrap.id ├── conftest.py ├── server2.id ├── test_aux_functions.py ├── test_block_exact_match.py ├── test_cache.py ├── test_chained_calls.py ├── test_dtype.py ├── test_full_model.py ├── test_optimized_layers.py ├── test_peft.py ├── test_priority_pool.py ├── test_remote_sequential.py ├── test_sequence_manager.py ├── test_server_stats.py ├── test_speculative_generation.py ├── test_tensor_parallel.py └── test_utils.py