gitextract_5r79t389/ ├── .clang-format ├── .dockerignore ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ ├── bug_report.md │ │ └── feature_request.md │ ├── PULL_REQUEST_TEMPLATE/ │ │ ├── pull_request_template_external_contrib.md │ │ └── pull_request_template_internal_contrib.md │ ├── pull_request_template.md │ └── workflows/ │ ├── codeql.yml │ └── pre-commit.yml ├── .gitignore ├── .pre-commit-config.yaml ├── CITATION.cff ├── CMakeLists.txt ├── CONTRIBUTING.md ├── Dockerfile.QA ├── Dockerfile.sdk ├── Dockerfile.win10.min ├── LICENSE ├── README.md ├── SECURITY.md ├── TRITON_VERSION ├── build.py ├── compose.py ├── deploy/ │ ├── alibaba-cloud/ │ │ └── README.md │ ├── aws/ │ │ ├── Chart.yaml │ │ ├── README.md │ │ ├── dashboard.json │ │ ├── templates/ │ │ │ ├── _helpers.tpl │ │ │ ├── deployment.yaml │ │ │ ├── secrets.yaml │ │ │ └── service.yaml │ │ └── values.yaml │ ├── fleetcommand/ │ │ ├── Chart.yaml │ │ ├── README.md │ │ ├── dashboard.json │ │ ├── templates/ │ │ │ ├── _helpers.tpl │ │ │ ├── configmap-grafana-dashboard.yaml │ │ │ ├── deployment.yaml │ │ │ ├── secrets.yaml │ │ │ └── service.yaml │ │ └── values.yaml │ ├── gcp/ │ │ ├── Chart.yaml │ │ ├── README.md │ │ ├── dashboard.json │ │ ├── templates/ │ │ │ ├── _helpers.tpl │ │ │ ├── deployment.yaml │ │ │ └── service.yaml │ │ └── values.yaml │ ├── gke-marketplace-app/ │ │ ├── README.md │ │ ├── benchmark/ │ │ │ ├── README.md │ │ │ ├── model-store/ │ │ │ │ ├── bert_base_tf_cpu/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── bert_base_tf_gpu/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── bert_base_trt_gpu/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── bert_base_trt_gpu_seqlen128/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── bert_distill_tf_cpu/ │ │ │ │ │ └── config.pbtxt │ │ │ │ └── bert_distill_tf_gpu/ │ │ │ │ └── config.pbtxt │ │ │ └── perf-analyzer-script/ │ │ │ ├── perf_query.sh │ │ │ └── triton_client.yaml │ │ ├── client-sample/ │ │ │ ├── bert_request.json │ │ │ ├── locustfile_bert.py │ │ │ └── perf_analyzer_grpc.sh │ │ ├── server-deployer/ │ │ │ ├── Dockerfile │ │ │ ├── build_and_push.sh │ │ │ ├── chart/ │ │ │ │ └── triton/ │ │ │ │ ├── Chart.yaml │ │ │ │ ├── templates/ │ │ │ │ │ ├── _helpers.tpl │ │ │ │ │ ├── application.yaml │ │ │ │ │ ├── deployment.yaml │ │ │ │ │ ├── hpa.yaml │ │ │ │ │ ├── ingress.yaml │ │ │ │ │ └── service.yaml │ │ │ │ └── values.yaml │ │ │ ├── data-test/ │ │ │ │ └── schema.yaml │ │ │ └── schema.yaml │ │ └── trt-engine/ │ │ └── README.md │ ├── k8s-onprem/ │ │ ├── Chart.yaml │ │ ├── README.md │ │ ├── dashboard.json │ │ ├── templates/ │ │ │ ├── _helpers.tpl │ │ │ ├── deployment.yaml │ │ │ ├── hpa.yaml │ │ │ ├── ingressroute.yaml │ │ │ ├── rbac.yaml │ │ │ ├── service.yaml │ │ │ └── serviceaccount.yaml │ │ └── values.yaml │ ├── mlflow-triton-plugin/ │ │ ├── README.md │ │ ├── examples/ │ │ │ ├── expected_output.json │ │ │ ├── input.json │ │ │ └── onnx_float32_int32_int32/ │ │ │ ├── 1/ │ │ │ │ └── model.onnx │ │ │ └── config.pbtxt │ │ ├── mlflow_triton/ │ │ │ ├── __init__.py │ │ │ ├── config.py │ │ │ └── deployments.py │ │ ├── scripts/ │ │ │ ├── publish_model_to_mlflow.py │ │ │ └── triton_flavor.py │ │ └── setup.py │ └── oci/ │ ├── Chart.yaml │ ├── README.md │ ├── dashboard.json │ ├── templates/ │ │ ├── _helpers.tpl │ │ ├── deployment.yaml │ │ ├── secrets.yaml │ │ └── service.yaml │ └── values.yaml ├── docker/ │ ├── README.third-party-src │ ├── cpu_only/ │ │ ├── entrypoint.d/ │ │ │ ├── 12-banner.sh │ │ │ └── 50-gpu-driver-check2.sh │ │ └── nvidia_entrypoint.sh │ ├── entrypoint.d/ │ │ ├── 10-banner.txt │ │ ├── 15-container-copyright.txt │ │ ├── 50-gpu-driver-check2.sh │ │ ├── 56-network-driver-version-check.sh │ │ ├── 70-shm-check.sh │ │ └── 99-check-run-aip-mode.sh │ └── sagemaker/ │ └── serve ├── docs/ │ ├── Dockerfile.docs │ ├── Makefile │ ├── README.md │ ├── _reference/ │ │ └── tritonclient_api.rst │ ├── _static/ │ │ ├── .gitattributes │ │ ├── custom.css │ │ └── rtd-data.js │ ├── _templates/ │ │ └── layout.html │ ├── backend_guide/ │ │ └── vllm.rst │ ├── client_guide/ │ │ ├── api_reference.rst │ │ ├── in_process.rst │ │ ├── kserve.rst │ │ ├── kserve_extension.rst │ │ └── python.rst │ ├── conf.py │ ├── contents.rst │ ├── customization_guide/ │ │ ├── build.md │ │ ├── compose.md │ │ ├── deploy.md │ │ ├── inference_protocols.md │ │ ├── inprocess_c_api.md │ │ ├── inprocess_java_api.md │ │ ├── repository_agents.md │ │ ├── sagemaker.md │ │ ├── test.md │ │ └── tritonfrontend.md │ ├── examples/ │ │ ├── README.md │ │ ├── fetch_models.sh │ │ ├── jetson/ │ │ │ ├── README.md │ │ │ └── concurrency_and_dynamic_batching/ │ │ │ ├── Makefile │ │ │ ├── README.md │ │ │ ├── common.h │ │ │ ├── labels.txt │ │ │ ├── people_detection.cc │ │ │ ├── tao/ │ │ │ │ ├── convert_peoplenet.sh │ │ │ │ └── models/ │ │ │ │ └── peoplenet/ │ │ │ │ └── .gitkeep │ │ │ ├── trtis_model_repo_sample_1/ │ │ │ │ └── peoplenet/ │ │ │ │ ├── 1/ │ │ │ │ │ └── .gitkeep │ │ │ │ └── config.pbtxt │ │ │ └── trtis_model_repo_sample_2/ │ │ │ └── peoplenet/ │ │ │ ├── 1/ │ │ │ │ └── .gitkeep │ │ │ └── config.pbtxt │ │ └── model_repository/ │ │ ├── densenet_onnx/ │ │ │ ├── config.pbtxt │ │ │ └── densenet_labels.txt │ │ ├── inception_onnx/ │ │ │ ├── config.pbtxt │ │ │ └── inception_labels.txt │ │ ├── simple/ │ │ │ ├── 1/ │ │ │ │ └── model.onnx │ │ │ └── config.pbtxt │ │ ├── simple_dyna_sequence/ │ │ │ ├── 1/ │ │ │ │ └── model.onnx │ │ │ └── config.pbtxt │ │ ├── simple_identity/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── simple_int8/ │ │ │ ├── 1/ │ │ │ │ └── model.onnx │ │ │ └── config.pbtxt │ │ ├── simple_sequence/ │ │ │ ├── 1/ │ │ │ │ └── model.onnx │ │ │ └── config.pbtxt │ │ └── simple_string/ │ │ ├── 1/ │ │ │ └── model.onnx │ │ └── config.pbtxt │ ├── exclusions.txt │ ├── generate_docs.py │ ├── getting_started/ │ │ ├── llm.md │ │ ├── quick_deployment.rst │ │ ├── quickstart.md │ │ └── trtllm_user_guide.md │ ├── index.md │ ├── introduction/ │ │ ├── compatibility.md │ │ ├── index.md │ │ └── release_notes.md │ ├── llm_features/ │ │ └── speculative_decoding.rst │ ├── perf_benchmark/ │ │ ├── genai_perf.rst │ │ ├── model_analyzer.rst │ │ └── perf_analyzer.rst │ ├── protocol/ │ │ ├── README.md │ │ ├── extension_binary_data.md │ │ ├── extension_classification.md │ │ ├── extension_generate.md │ │ ├── extension_logging.md │ │ ├── extension_model_configuration.md │ │ ├── extension_model_repository.md │ │ ├── extension_parameters.md │ │ ├── extension_schedule_policy.md │ │ ├── extension_sequence.md │ │ ├── extension_shared_memory.md │ │ ├── extension_statistics.md │ │ └── extension_trace.md │ ├── repositories.txt │ ├── scaling_guide/ │ │ └── scaling_guide.rst │ ├── server_guide/ │ │ ├── features.rst │ │ ├── model_pipelines.rst │ │ └── state_management.rst │ └── user_guide/ │ ├── architecture.md │ ├── batcher.md │ ├── bls.md │ ├── custom_operations.md │ ├── debugging_guide.md │ ├── decoupled_models.md │ ├── ensemble_models.md │ ├── faq.md │ ├── implicit_state_management.md │ ├── jetson.md │ ├── metrics.md │ ├── model_analyzer.md │ ├── model_configuration.md │ ├── model_execution.md │ ├── model_management.md │ ├── model_repository.md │ ├── optimization.md │ ├── perf_analyzer.md │ ├── performance_tuning.md │ ├── ragged_batching.md │ ├── rate_limiter.md │ ├── request_cancellation.md │ ├── response_cache.md │ ├── scheduler.md │ ├── trace.md │ └── v1_to_v2.md ├── enhancements/ │ ├── NNNN-template-complete.md │ ├── NNNN-template-limited.md │ ├── README.md │ └── teps/ │ └── 0000-tep-process.md ├── pyproject.toml ├── python/ │ └── openai/ │ ├── README.md │ ├── openai_frontend/ │ │ ├── __init__.py │ │ ├── engine/ │ │ │ ├── __init__.py │ │ │ ├── engine.py │ │ │ ├── triton_engine.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ ├── chat.py │ │ │ ├── tokenizer.py │ │ │ ├── tool_call_parsers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── llama_tool_call_parser.py │ │ │ │ ├── mistral_tool_call_parser.py │ │ │ │ ├── tool_call_parser.py │ │ │ │ └── utils.py │ │ │ └── triton.py │ │ ├── frontend/ │ │ │ ├── __init__.py │ │ │ ├── fastapi/ │ │ │ │ ├── __init__.py │ │ │ │ ├── middleware/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── api_restriction.py │ │ │ │ └── routers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── chat.py │ │ │ │ ├── completions.py │ │ │ │ ├── embeddings.py │ │ │ │ ├── models.py │ │ │ │ └── observability.py │ │ │ ├── fastapi_frontend.py │ │ │ └── frontend.py │ │ ├── main.py │ │ ├── schemas/ │ │ │ ├── __init__.py │ │ │ └── openai.py │ │ └── utils/ │ │ └── utils.py │ ├── requirements-test.txt │ ├── requirements.txt │ └── tests/ │ ├── __init__.py │ ├── conftest.py │ ├── test_chat_completions.py │ ├── test_completions.py │ ├── test_embeddings.py │ ├── test_lora.py │ ├── test_models/ │ │ ├── identity_py/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ └── mock_llm/ │ │ ├── 1/ │ │ │ └── model.py │ │ └── config.pbtxt │ ├── test_observability.py │ ├── test_openai_client.py │ ├── test_openai_restricted_apis.py │ ├── test_tool_calling.py │ ├── utils.py │ ├── vllm_embedding_models/ │ │ └── all-MiniLM-L6-v2/ │ │ ├── 1/ │ │ │ └── model.json │ │ └── config.pbtxt │ ├── vllm_mistral_models/ │ │ └── mistral-nemo-instruct-2407/ │ │ ├── 1/ │ │ │ └── model.json │ │ └── config.pbtxt │ └── vllm_models/ │ └── llama-3.1-8b-instruct/ │ ├── 1/ │ │ └── model.json │ └── config.pbtxt ├── qa/ │ ├── L0_additional_dependency_dirs/ │ │ └── test.sh │ ├── L0_async_work_queue/ │ │ └── test.sh │ ├── L0_backend_bls/ │ │ └── test.sh │ ├── L0_backend_config/ │ │ └── test.sh │ ├── L0_backend_fastertransformer/ │ │ └── test.sh │ ├── L0_backend_identity/ │ │ ├── identity_test.py │ │ └── test.sh │ ├── L0_backend_onnxruntime/ │ │ ├── gen_add_bf16_onnx_model.py │ │ ├── test.py │ │ └── test.sh │ ├── L0_backend_output_detail/ │ │ └── test.sh │ ├── L0_backend_python/ │ │ ├── argument_validation/ │ │ │ ├── models/ │ │ │ │ └── argument_validation/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── test.sh │ │ ├── async_execute/ │ │ │ ├── concurrency_test.py │ │ │ └── test.sh │ │ ├── bls/ │ │ │ ├── bls_parameters_test.py │ │ │ └── test.sh │ │ ├── common.sh │ │ ├── custom_metrics/ │ │ │ └── test.sh │ │ ├── decoupled/ │ │ │ ├── decoupled_test.py │ │ │ ├── models/ │ │ │ │ ├── decoupled_bls/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.py │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── decoupled_bls_async_cancel/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.py │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── decoupled_bls_cancel/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.py │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── decoupled_bls_cancel_after_complete/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.py │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── decoupled_bls_stream/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.py │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── decoupled_execute_error/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.py │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── decoupled_raise_exception/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.py │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── decoupled_return_response_error/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.py │ │ │ │ │ └── config.pbtxt │ │ │ │ └── decoupled_send_after_close_error/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── test.sh │ │ ├── ensemble/ │ │ │ ├── ensemble_test.py │ │ │ └── test.sh │ │ ├── env/ │ │ │ └── test.sh │ │ ├── examples/ │ │ │ └── test.sh │ │ ├── io/ │ │ │ ├── io_test.py │ │ │ ├── requested_output_model/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── model.py │ │ │ └── test.sh │ │ ├── lifecycle/ │ │ │ ├── lifecycle_test.py │ │ │ └── test.sh │ │ ├── logging/ │ │ │ ├── logging_test.py │ │ │ └── test.sh │ │ ├── model_control/ │ │ │ ├── model_control_test.py │ │ │ └── test.sh │ │ ├── model_readiness/ │ │ │ ├── test.sh │ │ │ ├── test_model_readiness.py │ │ │ └── test_models/ │ │ │ ├── is_ready_fn_returns_true_decoupled/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── model.py │ │ │ ├── readiness_coroutine_model.py │ │ │ └── readiness_model.py │ │ ├── parameters/ │ │ │ ├── response_parameters_test.py │ │ │ └── test.sh │ │ ├── python_based_backends/ │ │ │ ├── python_based_backends_test.py │ │ │ └── test.sh │ │ ├── python_test.py │ │ ├── request_rescheduling/ │ │ │ ├── grpc_endpoint_test.py │ │ │ └── test.sh │ │ ├── response_sender/ │ │ │ ├── response_sender_complete_final_test.py │ │ │ ├── response_sender_test.py │ │ │ └── test.sh │ │ ├── restart/ │ │ │ ├── models/ │ │ │ │ └── restart/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ ├── restart_test.py │ │ │ └── test.sh │ │ ├── setup_python_enviroment.sh │ │ ├── test.sh │ │ ├── test_infer_shm_leak.py │ │ └── variants/ │ │ └── test.sh │ ├── L0_backend_release/ │ │ └── test.sh │ ├── L0_backend_tutorial/ │ │ └── test.sh │ ├── L0_batch_custom/ │ │ ├── batch_custom_test.py │ │ └── test.sh │ ├── L0_batch_input/ │ │ ├── batch_input_test.py │ │ └── test.sh │ ├── L0_batcher/ │ │ ├── batcher_test.py │ │ ├── queue_timeout_test.py │ │ ├── test.sh │ │ └── verify_timestamps.py │ ├── L0_buffer_attributes/ │ │ ├── buffer_attributes_test.py │ │ ├── models/ │ │ │ ├── bls/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── identity/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_client_build_variants/ │ │ └── test.sh │ ├── L0_client_java/ │ │ └── test.sh │ ├── L0_client_memory_growth/ │ │ ├── client_memory_mail.py │ │ ├── models/ │ │ │ └── custom_identity_int32/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_client_nobatch/ │ │ ├── client_test.py │ │ └── test.sh │ ├── L0_client_timeout/ │ │ ├── client_infer_timeout_test.py │ │ ├── client_non_infer_timeout_test.py │ │ ├── models/ │ │ │ └── custom_identity_int32/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_client_valgrind/ │ │ ├── models/ │ │ │ └── custom_identity_int32/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_cmdline_trace/ │ │ ├── test.sh │ │ └── trace_client.py │ ├── L0_compute_capability/ │ │ └── test.sh │ ├── L0_config_json/ │ │ ├── ensemble_config.pbtxt │ │ ├── max_priority_level.pbtxt │ │ └── test.sh │ ├── L0_cuda_graph/ │ │ ├── test.sh │ │ └── trt_cuda_graph_test.py │ ├── L0_cuda_shared_memory/ │ │ ├── cuda_shared_memory_test.py │ │ └── test.sh │ ├── L0_custom_model_config/ │ │ └── test.sh │ ├── L0_custom_ops/ │ │ ├── mod_op_test.py │ │ ├── onnx_op_test.py │ │ ├── test.sh │ │ └── vision_op_test.py │ ├── L0_data_compression/ │ │ ├── test.sh │ │ └── validation.py │ ├── L0_decoupled/ │ │ ├── decoupled_test.py │ │ ├── models/ │ │ │ ├── fan_repeat/ │ │ │ │ └── config.pbtxt │ │ │ ├── identity_int32/ │ │ │ │ └── config.pbtxt │ │ │ ├── nested_square/ │ │ │ │ └── config.pbtxt │ │ │ ├── repeat_square/ │ │ │ │ └── config.pbtxt │ │ │ ├── sequence_repeat/ │ │ │ │ └── config.pbtxt │ │ │ └── simple_repeat/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_device_memory_tracker/ │ │ ├── test.py │ │ └── test.sh │ ├── L0_dlpack_multi_gpu/ │ │ └── test.sh │ ├── L0_doc_links/ │ │ ├── mkdocs.yml │ │ └── test.sh │ ├── L0_dyna_implicit_state/ │ │ └── test.sh │ ├── L0_dyna_sequence_batcher/ │ │ ├── dyna_sequence_batcher_test.py │ │ └── test.sh │ ├── L0_grpc/ │ │ ├── client_plugin_models/ │ │ │ └── client_plugin_test/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── grpc_basic_auth_test.py │ │ ├── grpc_client_plugin_test.py │ │ ├── nginx.conf │ │ ├── python_grpc_aio_test.py │ │ ├── python_unit_test.py │ │ └── test.sh │ ├── L0_grpc_state_cleanup/ │ │ ├── cleanup_test.py │ │ └── test.sh │ ├── L0_http/ │ │ ├── generate_endpoint_test.py │ │ ├── http_basic_auth_test.py │ │ ├── http_client_plugin_test.py │ │ ├── http_input_size_limit_test.py │ │ ├── http_request_many_chunks.py │ │ ├── http_restricted_api_test.py │ │ ├── http_test.py │ │ ├── nginx.conf │ │ ├── python_http_aio_test.py │ │ └── test.sh │ ├── L0_http_fuzz/ │ │ ├── fuzztest.py │ │ └── test.sh │ ├── L0_https/ │ │ ├── nginx.conf │ │ └── test.sh │ ├── L0_implicit_state/ │ │ ├── implicit_state.py │ │ ├── models/ │ │ │ ├── growable_memory/ │ │ │ │ └── config.pbtxt │ │ │ ├── no_implicit_state/ │ │ │ │ └── config.pbtxt │ │ │ ├── no_state_update/ │ │ │ │ └── config.pbtxt │ │ │ ├── single_state_buffer/ │ │ │ │ └── config.pbtxt │ │ │ └── wrong_internal_state/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_infer/ │ │ ├── infer_test.py │ │ ├── install_and_test.sh │ │ └── test.sh │ ├── L0_infer_reshape/ │ │ ├── infer_reshape_test.py │ │ └── test.sh │ ├── L0_infer_variable/ │ │ ├── infer_variable_test.py │ │ └── test.sh │ ├── L0_infer_zero/ │ │ ├── infer_zero_test.py │ │ └── test.sh │ ├── L0_input_validation/ │ │ ├── input_validation_test.py │ │ ├── models/ │ │ │ ├── input_all_optional/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ ├── input_all_required/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── input_optional/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_io/ │ │ ├── gen_libtorch_model.py │ │ └── test.sh │ ├── L0_iterative_sequence/ │ │ ├── iterative_sequence_e2e.py │ │ ├── models/ │ │ │ └── iterative_sequence/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_java_memory_growth/ │ │ ├── MemoryGrowthTest.java │ │ └── test.sh │ ├── L0_java_resnet/ │ │ ├── ResnetTest.java │ │ ├── expected_output_data/ │ │ │ ├── expected_output_onnx.txt │ │ │ ├── expected_output_pytorch.txt │ │ │ └── expected_output_tensorflow.txt │ │ └── test.sh │ ├── L0_java_sequence_batcher/ │ │ ├── SequenceTest.java │ │ └── test.sh │ ├── L0_java_simple_example/ │ │ └── test.sh │ ├── L0_json/ │ │ └── test.sh │ ├── L0_large_payload/ │ │ ├── large_payload_test.py │ │ └── test.sh │ ├── L0_libtorch_disable_cudnn/ │ │ └── test.sh │ ├── L0_libtorch_inference_mode/ │ │ └── test.sh │ ├── L0_libtorch_instance_group_kind_model/ │ │ ├── client.py │ │ ├── gen_models.py │ │ ├── models/ │ │ │ └── libtorch_multi_device/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_libtorch_io_names/ │ │ ├── io_names_client.py │ │ └── test.sh │ ├── L0_libtorch_io_types/ │ │ └── test.sh │ ├── L0_libtorch_optimized_execution/ │ │ └── test.sh │ ├── L0_libtorch_shared_weights/ │ │ ├── libtorch_shared_weights_test.py │ │ └── test.sh │ ├── L0_lifecycle/ │ │ ├── ensemble_zero_1_float32/ │ │ │ └── config.pbtxt │ │ ├── identity_zero_1_int32/ │ │ │ └── config.pbtxt │ │ ├── lifecycle_test.py │ │ ├── retry_model/ │ │ │ └── 1/ │ │ │ └── model.py │ │ └── test.sh │ ├── L0_logging/ │ │ ├── log_format_test.py │ │ ├── logging_endpoint_test.py │ │ └── test.sh │ ├── L0_long_running_stress/ │ │ ├── crashing_client.py │ │ ├── scenarios.py │ │ ├── stress.py │ │ ├── stress_mail.py │ │ └── test.sh │ ├── L0_memory/ │ │ ├── client.py │ │ └── test.sh │ ├── L0_memory_growth/ │ │ ├── busy_op_test.py │ │ ├── server_memory_mail.py │ │ └── test.sh │ ├── L0_metrics/ │ │ ├── cpu_metrics_test.py │ │ ├── ensemble_decoupled/ │ │ │ ├── async_execute_decouple/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── ensemble/ │ │ │ └── config.pbtxt │ │ ├── ensemble_delay/ │ │ │ └── config.pbtxt │ │ ├── histogram_metrics_test.py │ │ ├── identity_delay/ │ │ │ └── config.pbtxt │ │ ├── metrics_config_test.py │ │ ├── metrics_queue_size_test.py │ │ ├── model_namespacing_repos/ │ │ │ ├── addsub_repo/ │ │ │ │ ├── addsub_ensemble/ │ │ │ │ │ └── config.pbtxt │ │ │ │ └── composing_model/ │ │ │ │ └── 1/ │ │ │ │ └── model.py │ │ │ └── subadd_repo/ │ │ │ ├── composing_model/ │ │ │ │ └── 1/ │ │ │ │ └── model.py │ │ │ └── subadd_ensemble/ │ │ │ └── config.pbtxt │ │ ├── pinned_memory_metrics_test.py │ │ ├── test.sh │ │ └── unit_test_models/ │ │ ├── identity_cache_off/ │ │ │ └── config.pbtxt │ │ └── identity_cache_on/ │ │ └── config.pbtxt │ ├── L0_mlflow/ │ │ ├── plugin_test.py │ │ └── test.sh │ ├── L0_model_config/ │ │ ├── autofill_noplatform/ │ │ │ ├── common/ │ │ │ │ └── no_version/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── custom/ │ │ │ │ ├── no_delimiter/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── unknown_backend.unknown/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── ensemble/ │ │ │ │ ├── circular_dependency/ │ │ │ │ │ ├── circular_dependency/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── circular_dependency_2/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── expected_2 │ │ │ │ ├── ensemble_scheduling_no_set/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── has_backend/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── inconsistent_data_type/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── fp32_dim1_batch2/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── inconsistent_data_type/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── int32_dim1_batch4/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── inconsistent_shape/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected_2 │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim3_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── inconsistent_shape/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── instance_group_set/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── invalid_batch_size/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── fp32_dim1_batch2/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── invalid_batch_size/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── invalid_decoupled_branching/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── int32_dim1_nobatch_output2/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── invalid_decoupled_branching/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── repeat_int32/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── invalid_decoupled_branching_2/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── invalid_decoupled_branching_2/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── repeat_int32/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── invalid_input_map/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_input4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_output3/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── invalid_input_map/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── invalid_output_map/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_input4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_output3/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── invalid_output_map/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── model_warm_up_set/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── no_input_map/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── no_model_name/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── no_output_map/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── no_required_version/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── no_required_version/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── simple/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── no_required_version_2/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── no_required_version_2/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── simple/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── no_required_version_3/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── no_required_version_3/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── simple/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── no_step/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── no_step_2/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── non_existing_model/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_output3/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── non_existing_model/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── optimization_set/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── output_to_tensor_overmapped/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── redundant_tensor_as_input/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── expected_2 │ │ │ │ ├── redundant_tensor_as_output/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── self_circular_dependency/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_input4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_output3/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── self_circular_dependency/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── tensor_to_input_overmapped/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── unmapped_input/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_input4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim1_batch4_output3/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── unmapped_input/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── unreachable_input/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── unreachable_output/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── unreachable_output_2/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── unreachable_output_3/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── onnx/ │ │ │ │ ├── bad_input_dims/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.onnx │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── bad_max_batch_size/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.onnx │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── bad_output_dims/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.onnx │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── too_few_inputs/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.onnx │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── too_many_inputs/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.onnx │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── unknown_input/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.onnx │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── unknown_output/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.onnx │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── openvino/ │ │ │ │ ├── bad_input_dims/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── bad_output_dims/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── too_few_inputs/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── too_many_inputs/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── unknown_input/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── unknown_output/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── python/ │ │ │ │ ├── conflicting_max_batch_size/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── conflicting_scheduler_sequence/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── input_mismatch_datatype/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── input_mismatch_dims/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── input_missing_datatype/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── input_missing_dims/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── input_missing_name/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── input_wrong_property/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── model_transaction_policy_invalid_args/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── model_transaction_policy_mismatch/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── no_return/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── output_mismatch_datatype/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── output_mismatch_dims/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── output_missing_datatype/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── output_missing_dims/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── output_missing_name/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ └── output_wrong_property/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── model.py │ │ │ ├── pytorch/ │ │ │ │ ├── too_few_inputs/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── too_few_outputs/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ └── tensorrt/ │ │ │ ├── bad_dynamic_shapes_max/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_dynamic_shapes_min/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_input_dims/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_input_non_linear_format_io/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_input_shape/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_input_shape_tensor/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_input_type/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_output_dims/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_output_shape/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_output_shape_tensor/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_output_type/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── bad_outut_non_linear_format_io/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── mixed_batch_hint_dims/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── mixed_batch_hint_shape_values/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── too_few_inputs/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── too_many_inputs/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── unknown_input/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ └── unknown_output/ │ │ │ ├── config.pbtxt │ │ │ └── expected │ │ ├── autofill_noplatform_success/ │ │ │ ├── custom/ │ │ │ │ ├── empty_config.identity/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── no_backend.identity/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── ensemble/ │ │ │ │ ├── embedded_ensemble/ │ │ │ │ │ ├── embedded_ensemble/ │ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ │ └── expected │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── inner_ensemble/ │ │ │ │ │ └── config.pbtxt │ │ │ │ ├── inconsistent_shape/ │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim2_nobatch/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── inconsistent_shape/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── inconsistent_shape_2/ │ │ │ │ │ ├── fp32_dim1_batch4/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ ├── fp32_dim2_nobatch/ │ │ │ │ │ │ └── config.pbtxt │ │ │ │ │ └── inconsistent_shape_2/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── unmapped_output/ │ │ │ │ ├── fp32_dim1_batch4_output3/ │ │ │ │ │ └── config.pbtxt │ │ │ │ └── unmapped_output/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── onnx/ │ │ │ │ ├── cpu_instance/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── empty_config/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.onnx │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ └── expected.3 │ │ │ │ ├── no_config/ │ │ │ │ │ ├── 1/ │ │ │ │ │ │ └── model.onnx │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ └── expected.3 │ │ │ │ └── no_config_no_batch/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.onnx │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ ├── expected.1 │ │ │ │ ├── expected.2 │ │ │ │ └── expected.3 │ │ │ ├── openvino/ │ │ │ │ ├── dynamic_batch/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ └── expected.3 │ │ │ │ ├── empty_config/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ └── expected.3 │ │ │ │ ├── no_config/ │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ └── expected.3 │ │ │ │ └── partial_config/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected.1 │ │ │ ├── python/ │ │ │ │ ├── conflicting_scheduler_ensemble/ │ │ │ │ │ ├── conflicting_scheduler_ensemble/ │ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ │ ├── expected │ │ │ │ │ │ └── model.py │ │ │ │ │ ├── ensemble_first_step/ │ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ │ └── model.py │ │ │ │ │ └── ensemble_second_step/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── model.py │ │ │ │ ├── dynamic_batching/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ ├── expected.3 │ │ │ │ │ └── model.py │ │ │ │ ├── dynamic_batching_no_op/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ ├── expected.3 │ │ │ │ │ └── model.py │ │ │ │ ├── empty_config/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ └── expected.3 │ │ │ │ ├── incomplete_input/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── incomplete_output/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ ├── model_transaction_policy/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ ├── expected.3 │ │ │ │ │ └── model.py │ │ │ │ ├── model_transaction_policy_decoupled_false/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ ├── expected.3 │ │ │ │ │ └── model.py │ │ │ │ ├── model_transaction_policy_no_op/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ ├── expected.1 │ │ │ │ │ ├── expected.2 │ │ │ │ │ ├── expected.3 │ │ │ │ │ └── model.py │ │ │ │ ├── optional_input/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ ├── expected │ │ │ │ │ └── model.py │ │ │ │ ├── unknown_input/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── unknown_output/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── pytorch/ │ │ │ │ ├── cpu_instance/ │ │ │ │ │ ├── config.pbtxt │ │ │ │ │ └── expected │ │ │ │ └── no_name_platform/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ └── tensorrt/ │ │ │ ├── empty_config/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── empty_config_variable/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── hint_for_no_batch/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── incomplete_input/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ ├── expected.1 │ │ │ │ ├── expected.2 │ │ │ │ └── expected.3 │ │ │ ├── incomplete_output/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ ├── expected.1 │ │ │ │ ├── expected.2 │ │ │ │ └── expected.3 │ │ │ ├── multi_prof_max_bs/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── no_config/ │ │ │ │ └── expected │ │ │ ├── no_config_non_linear_format_io/ │ │ │ │ └── expected │ │ │ ├── no_config_shape_tensor/ │ │ │ │ └── expected │ │ │ ├── no_config_variable/ │ │ │ │ └── expected │ │ │ ├── no_name_platform/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── no_name_platform_variable/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ └── reshape_config_provided/ │ │ │ ├── config.pbtxt │ │ │ └── expected │ │ ├── cli_messages/ │ │ │ ├── cli_deprecation/ │ │ │ │ └── expected │ │ │ └── cli_override/ │ │ │ └── expected │ │ ├── compare_status.py │ │ ├── custom_parameters/ │ │ │ └── tensorrt/ │ │ │ ├── invalid/ │ │ │ │ └── allocation_strategy_invalid_value/ │ │ │ │ ├── expected │ │ │ │ └── partial.pbtxt │ │ │ └── valid/ │ │ │ ├── allocation_strategy_no_key/ │ │ │ │ └── partial.pbtxt │ │ │ ├── allocation_strategy_no_parameters/ │ │ │ │ └── partial.pbtxt │ │ │ ├── allocation_strategy_value_1/ │ │ │ │ ├── expected │ │ │ │ └── partial.pbtxt │ │ │ └── allocation_strategy_value_2/ │ │ │ ├── expected │ │ │ └── partial.pbtxt │ │ ├── model_metrics/ │ │ │ ├── invalid_config/ │ │ │ │ ├── empty_buckets/ │ │ │ │ │ ├── expected │ │ │ │ │ └── partial.pbtxt │ │ │ │ ├── empty_metric_family/ │ │ │ │ │ ├── expected │ │ │ │ │ └── partial.pbtxt │ │ │ │ ├── no_buckets/ │ │ │ │ │ ├── expected │ │ │ │ │ └── partial.pbtxt │ │ │ │ ├── no_histogram_options/ │ │ │ │ │ ├── expected │ │ │ │ │ └── partial.pbtxt │ │ │ │ ├── no_metric_family/ │ │ │ │ │ ├── expected │ │ │ │ │ └── partial.pbtxt │ │ │ │ └── no_metric_identifier/ │ │ │ │ ├── expected │ │ │ │ └── partial.pbtxt │ │ │ ├── valid_config/ │ │ │ │ └── valid_model_metrics/ │ │ │ │ └── partial.pbtxt │ │ │ └── valid_config_with_warn/ │ │ │ └── unknown_metric_family/ │ │ │ ├── expected │ │ │ └── partial.pbtxt │ │ ├── noautofill_platform/ │ │ │ ├── batch_input_less_source0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_input_less_source1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_input_less_source2/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_input_less_source3/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_input_many_source0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_input_many_source1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_input_many_source2/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_input_many_source3/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_input_unknown_source/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_output_duplicated_target/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_output_less_source/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_output_many_source/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_output_unknown_source/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── batch_output_unknown_target/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_unsupported │ │ │ ├── control_kind_end_multiple/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── control_kind_ready_multiple/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── control_kind_start_multiple/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── control_tensor_multiple/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── control_tensor_no_value/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── default_priority_level0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── default_priority_level1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── ensemble_scheduling_set/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── invalid_cpu/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── invalid_gpu/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── missing_datatype/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── negative_gpu/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── negative_max_batch_size/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── preserve_ordering0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── preserve_ordering1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── preserve_ordering2/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── priority_level0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── priority_level1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_elementcount0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_elementcount1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_elementcount2/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_elementcount3/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_empty0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_empty1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_variable0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_variable1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_variable2/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_variable3/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_variable4/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_variable5/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_zerodims0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_nobatch_zerodims1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_variable0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_variable1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_variable2/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_variable3/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_variable4/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_variable5/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_zerodims0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── reshape_zerodims1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── zerodims_input0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── zerodims_input1/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ ├── zerodims_output0/ │ │ │ │ ├── config.pbtxt │ │ │ │ ├── expected │ │ │ │ └── expected_ensemble │ │ │ └── zerodims_output1/ │ │ │ ├── config.pbtxt │ │ │ ├── expected │ │ │ └── expected_ensemble │ │ ├── special_cases/ │ │ │ ├── invalid_platform/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ ├── invalid_runtime/ │ │ │ │ ├── config.pbtxt │ │ │ │ └── expected │ │ │ └── runtime_escape/ │ │ │ ├── config.pbtxt │ │ │ └── expected │ │ └── test.sh │ ├── L0_model_namespacing/ │ │ ├── python_addsub/ │ │ │ └── __init__.py │ │ ├── python_subadd/ │ │ │ └── __init__.py │ │ ├── test.py │ │ ├── test.sh │ │ ├── test_duplication/ │ │ │ ├── addsub_repo/ │ │ │ │ ├── composing_model/ │ │ │ │ │ └── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── simple_addsub/ │ │ │ │ └── config.pbtxt │ │ │ └── subadd_repo/ │ │ │ ├── composing_model/ │ │ │ │ └── 1/ │ │ │ │ └── model.py │ │ │ └── simple_subadd/ │ │ │ └── config.pbtxt │ │ ├── test_dynamic_resolution/ │ │ │ ├── addsub_repo/ │ │ │ │ ├── composing_model/ │ │ │ │ │ └── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── simple_addsub/ │ │ │ │ └── config.pbtxt │ │ │ └── subadd_repo/ │ │ │ ├── composing_model/ │ │ │ │ └── 1/ │ │ │ │ └── model.py │ │ │ └── simple_subadd/ │ │ │ └── config.pbtxt │ │ ├── test_ensemble_duplication/ │ │ │ ├── addsub_repo/ │ │ │ │ ├── composing_addsub/ │ │ │ │ │ └── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── simple_ensemble/ │ │ │ │ └── config.pbtxt │ │ │ └── subadd_repo/ │ │ │ ├── composing_subadd/ │ │ │ │ └── 1/ │ │ │ │ └── model.py │ │ │ └── simple_ensemble/ │ │ │ └── config.pbtxt │ │ └── test_no_duplication/ │ │ ├── addsub_repo/ │ │ │ ├── composing_addsub/ │ │ │ │ └── 1/ │ │ │ │ └── model.py │ │ │ └── simple_addsub/ │ │ │ └── config.pbtxt │ │ └── subadd_repo/ │ │ ├── composing_subadd/ │ │ │ └── 1/ │ │ │ └── model.py │ │ └── simple_subadd/ │ │ └── config.pbtxt │ ├── L0_model_queue/ │ │ ├── ensemble_zero_1_float32/ │ │ │ └── config.pbtxt │ │ ├── model_queue_test.py │ │ └── test.sh │ ├── L0_model_update/ │ │ ├── instance_update_test.py │ │ └── test.sh │ ├── L0_multi_server/ │ │ └── test.sh │ ├── L0_nan_inf/ │ │ ├── models/ │ │ │ └── nan_inf_output/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── nan_inf_test.py │ │ └── test.sh │ ├── L0_nullchar_string/ │ │ ├── nullchar_string_client.py │ │ └── test.sh │ ├── L0_onnx_optimization/ │ │ └── test.sh │ ├── L0_openai/ │ │ ├── generate_engine.py │ │ └── test.sh │ ├── L0_optional_input/ │ │ ├── models/ │ │ │ ├── ensemble_identity_2_float32/ │ │ │ │ └── config.pbtxt │ │ │ ├── identity_2_float32/ │ │ │ │ └── config.pbtxt │ │ │ ├── optional_connecting_tensor/ │ │ │ │ └── config.pbtxt │ │ │ ├── optional_identity/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── pipeline_identity_2_float32/ │ │ │ └── config.pbtxt │ │ ├── optional_input_test.py │ │ └── test.sh │ ├── L0_orca/ │ │ ├── orca_http_test.py │ │ └── test.sh │ ├── L0_output_name/ │ │ ├── output_name_test.py │ │ └── test.sh │ ├── L0_output_validation/ │ │ ├── lt_op_val_client.py │ │ └── test.sh │ ├── L0_parallel_copy/ │ │ ├── parallel_copy_test.py │ │ └── test.sh │ ├── L0_parameters/ │ │ ├── class_count_test.py │ │ ├── model_repository/ │ │ │ ├── ensemble/ │ │ │ │ └── config.pbtxt │ │ │ ├── identity/ │ │ │ │ └── config.pbtxt │ │ │ └── parameter/ │ │ │ └── 1/ │ │ │ └── model.py │ │ ├── parameters_test.py │ │ └── test.sh │ ├── L0_passive_instance/ │ │ ├── models/ │ │ │ └── distributed_int32_int32_int32/ │ │ │ └── config.pbtxt │ │ ├── passive_instance_test.py │ │ └── test.sh │ ├── L0_perf_deeprecommender/ │ │ ├── run_test.sh │ │ └── test.sh │ ├── L0_perf_kaldi/ │ │ ├── create_data.sh │ │ └── test.sh │ ├── L0_perf_nomodel/ │ │ ├── custom_models/ │ │ │ └── custom_zero_1_float32/ │ │ │ └── config.pbtxt │ │ ├── run_test.sh │ │ └── test.sh │ ├── L0_perf_pyclients/ │ │ ├── custom_models/ │ │ │ └── custom_zero_1_int32/ │ │ │ └── config.pbtxt │ │ ├── simple_perf_client.py │ │ └── test.sh │ ├── L0_perf_resnet/ │ │ ├── run_test.sh │ │ └── test.sh │ ├── L0_perf_tensorrt_llm/ │ │ └── test.sh │ ├── L0_perf_vllm/ │ │ └── test.sh │ ├── L0_pinned_memory/ │ │ ├── libtorch_ensemble.pbtxt │ │ └── test.sh │ ├── L0_priority/ │ │ └── test.sh │ ├── L0_python_api/ │ │ ├── test.sh │ │ ├── test_kserve.py │ │ ├── test_model_repository/ │ │ │ ├── delayed_identity/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── identity/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ └── testing_utils.py │ ├── L0_python_client_unit_tests/ │ │ └── test.sh │ ├── L0_pytorch_python_runtime/ │ │ ├── infer.py │ │ ├── test.sh │ │ └── unit_test.py │ ├── L0_query/ │ │ ├── models/ │ │ │ └── query/ │ │ │ └── config.pbtxt │ │ ├── query_e2e.py │ │ └── test.sh │ ├── L0_rate_limiter/ │ │ ├── rate_limiter_test.py │ │ └── test.sh │ ├── L0_register/ │ │ ├── config.pbtxt │ │ └── test.sh │ ├── L0_repoagent_checksum/ │ │ ├── identity_test.py │ │ ├── models/ │ │ │ └── identity_int32/ │ │ │ ├── config.pbtxt │ │ │ └── data_file │ │ └── test.sh │ ├── L0_request_cancellation/ │ │ ├── grpc_cancellation_test.py │ │ ├── implicit_state_model/ │ │ │ ├── config.pbtxt │ │ │ ├── gen_model.py │ │ │ └── model.pt │ │ ├── implicit_state_test.py │ │ ├── scheduler_test.py │ │ └── test.sh │ ├── L0_response_cache/ │ │ ├── ensemble_cache_test.py │ │ ├── generate_random_data.py │ │ ├── models/ │ │ │ ├── decoupled_cache/ │ │ │ │ └── config.pbtxt │ │ │ └── identity_cache/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_response_statistics/ │ │ ├── response_statistics_test.py │ │ └── test.sh │ ├── L0_sagemaker/ │ │ ├── sagemaker_generate_stream_test.py │ │ ├── sagemaker_generate_test.py │ │ ├── sagemaker_multi_model_test.py │ │ ├── sagemaker_request_many_chunks.py │ │ ├── sagemaker_test.py │ │ └── test.sh │ ├── L0_scalar_io/ │ │ ├── scalar_test.py │ │ └── test.sh │ ├── L0_sdk/ │ │ ├── grpc_test.cc │ │ ├── http_test.cc │ │ └── test.sh │ ├── L0_secure_grpc/ │ │ └── test.sh │ ├── L0_sequence_batcher/ │ │ ├── request_timeout_models/ │ │ │ └── custom_sequence_int32_timeout/ │ │ │ └── config.pbtxt │ │ ├── sequence_batcher_test.py │ │ └── test.sh │ ├── L0_sequence_corrid_batcher/ │ │ ├── sequence_corrid_batcher_test.py │ │ └── test.sh │ ├── L0_sequence_stress/ │ │ ├── sequence_stress.py │ │ └── test.sh │ ├── L0_server_status/ │ │ ├── server_status_test.py │ │ └── test.sh │ ├── L0_shared_memory/ │ │ ├── shared_memory_test.py │ │ └── test.sh │ ├── L0_simple_ensemble/ │ │ ├── backpressure_test_models/ │ │ │ ├── decoupled_producer/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── ensemble_disabled_max_inflight_requests/ │ │ │ └── config.pbtxt │ │ ├── ensemble_backpressure_test.py │ │ ├── ensemble_test.py │ │ ├── models/ │ │ │ ├── ensemble_add_sub_int32_int32_int32/ │ │ │ │ └── config.pbtxt │ │ │ ├── ensemble_partial_add_sub/ │ │ │ │ └── config.pbtxt │ │ │ ├── partial_add_sub/ │ │ │ │ ├── 1/ │ │ │ │ │ └── model.py │ │ │ │ └── config.pbtxt │ │ │ └── simple/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_simple_example/ │ │ └── test.sh │ ├── L0_simple_go_client/ │ │ └── test.sh │ ├── L0_simple_lib/ │ │ └── test.sh │ ├── L0_simple_nodejs_client/ │ │ └── test.sh │ ├── L0_socket/ │ │ ├── models/ │ │ │ └── simple/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_storage_S3/ │ │ └── test.sh │ ├── L0_storage_S3_local/ │ │ ├── mock_s3_service.py │ │ └── test.sh │ ├── L0_storage_azure/ │ │ └── test.sh │ ├── L0_storage_swiftstack/ │ │ ├── infer_test.py │ │ └── test.sh │ ├── L0_string_io/ │ │ ├── string_client_test.py │ │ └── test.sh │ ├── L0_trace/ │ │ ├── models/ │ │ │ └── input_all_required/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── opentelemetry_unittest.py │ │ ├── test.sh │ │ ├── trace-config.yaml │ │ ├── trace_context.py │ │ ├── trace_endpoint_test.py │ │ └── trace_stress_grpc_client.py │ ├── L0_triton_repo_agent/ │ │ ├── models/ │ │ │ ├── chain_relocation/ │ │ │ │ └── config.pbtxt │ │ │ └── relocation_sanity_check/ │ │ │ └── config.pbtxt │ │ └── test.sh │ ├── L0_trt_bf16_dtype/ │ │ ├── test.sh │ │ └── trt_bf16_dtype_test.py │ ├── L0_trt_compat/ │ │ ├── test.sh │ │ └── trt_compatibility_test.py │ ├── L0_trt_data_dependent_shape/ │ │ ├── test.sh │ │ └── trt_data_dependent_shape_test.py │ ├── L0_trt_dla/ │ │ ├── dla_test.py │ │ └── test.sh │ ├── L0_trt_dynamic_shape/ │ │ ├── test.sh │ │ └── trt_dynamic_shape_test.py │ ├── L0_trt_error_propagation/ │ │ ├── test.sh │ │ └── trt_error_propagation_test.py │ ├── L0_trt_plugin/ │ │ ├── test.sh │ │ └── trt_plugin_test.py │ ├── L0_trt_reformat_free/ │ │ ├── test.sh │ │ └── trt_reformat_free_test.py │ ├── L0_trt_shape_tensors/ │ │ ├── test.sh │ │ └── trt_shape_tensor_test.py │ ├── L0_vertex_ai/ │ │ ├── test.sh │ │ └── vertex_ai_test.py │ ├── L0_warmup/ │ │ ├── decoupled/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── failing_infer/ │ │ │ ├── 1/ │ │ │ │ └── model.py │ │ │ └── config.pbtxt │ │ ├── raw_mug_data │ │ └── test.sh │ ├── common/ │ │ ├── busy_op_kernel.cu.cc │ │ ├── check_copyright.py │ │ ├── check_massif_log.py │ │ ├── check_valgrind_log.py │ │ ├── gen_common.py │ │ ├── gen_ensemble_model_utils.py │ │ ├── gen_jetson_trt_models │ │ ├── gen_qa_custom_ops_models.py │ │ ├── gen_qa_dyna_sequence_implicit_models.py │ │ ├── gen_qa_dyna_sequence_models.py │ │ ├── gen_qa_identity_models.py │ │ ├── gen_qa_image_models.py │ │ ├── gen_qa_implicit_models.py │ │ ├── gen_qa_model_repository │ │ ├── gen_qa_models.py │ │ ├── gen_qa_ort_scalar_models.py │ │ ├── gen_qa_pytorch_model.py │ │ ├── gen_qa_ragged_models.py │ │ ├── gen_qa_reshape_models.py │ │ ├── gen_qa_sequence_models.py │ │ ├── gen_qa_torchtrt_models.py │ │ ├── gen_qa_trt_data_dependent_shape.py │ │ ├── gen_qa_trt_format_models.py │ │ ├── gen_qa_trt_plugin_models.py │ │ ├── infer_test.py │ │ ├── infer_util.py │ │ ├── inferentia_perf_analyzer_input_data_json/ │ │ │ ├── non_aligned_validation_batched.json │ │ │ ├── non_aligned_validation_no_batch.json │ │ │ ├── simple_model.py │ │ │ ├── validation_batched.json │ │ │ ├── validation_no_batch.json │ │ │ ├── wrong_validation_batched.json │ │ │ └── wrong_validation_no_batch.json │ │ ├── libtorch_infer_client.py │ │ ├── nightly_email_helper.py │ │ ├── orca_header_test.py │ │ ├── perf_analyzer_input_data_json/ │ │ │ ├── float_data_with_shape.json │ │ │ ├── image_data.json │ │ │ ├── int_data.json │ │ │ ├── int_data_diff_shape.json │ │ │ ├── int_data_optional.json │ │ │ ├── non_aligned_output.json │ │ │ ├── output.json │ │ │ ├── repeat_int32_data.json │ │ │ ├── seq_data.json │ │ │ ├── seq_output.json │ │ │ ├── seq_wrong_output.json │ │ │ ├── shape_tensor_data.json │ │ │ ├── string_data.json │ │ │ ├── string_data_with_shape.json │ │ │ ├── wrong_output.json │ │ │ └── wrong_output_2.json │ │ ├── reporter.py │ │ ├── resnet50_labels.txt │ │ ├── run_all_tests.sh │ │ ├── sequence_util.py │ │ ├── shm_util.py │ │ ├── show_testlogs │ │ ├── test_util.py │ │ ├── trace_summary.py │ │ ├── trtllm_util.sh │ │ └── util.sh │ ├── custom_models/ │ │ ├── custom_dyna_sequence_int32/ │ │ │ └── config.pbtxt │ │ ├── custom_sequence_int32/ │ │ │ └── config.pbtxt │ │ └── custom_zero_1_float32/ │ │ └── config.pbtxt │ ├── ensemble_models/ │ │ ├── batch_to_nobatch_float32_float32_float32/ │ │ │ └── config.pbtxt │ │ ├── batch_to_nobatch_nobatch_float32_float32_float32/ │ │ │ └── config.pbtxt │ │ ├── label_override_int32_float32_float32/ │ │ │ ├── config.pbtxt │ │ │ └── output0_labels.txt │ │ ├── mix_ensemble_int32_float32_float32/ │ │ │ └── config.pbtxt │ │ ├── mix_nobatch_batch_float32_float32_float32/ │ │ │ └── config.pbtxt │ │ ├── mix_platform_float32_float32_float32/ │ │ │ └── config.pbtxt │ │ ├── mix_type_int32_float32_float32/ │ │ │ └── config.pbtxt │ │ ├── nobatch_to_batch_float32_float32_float32/ │ │ │ └── config.pbtxt │ │ ├── nobatch_to_batch_nobatch_float32_float32_float32/ │ │ │ └── config.pbtxt │ │ └── wrong_label_int32_float32_float32/ │ │ ├── config.pbtxt │ │ └── output0_labels.txt │ ├── openvino_models/ │ │ ├── README.md │ │ ├── dynamic_batch/ │ │ │ └── 1/ │ │ │ └── model.mapping │ │ └── fixed_batch/ │ │ └── 1/ │ │ └── model.mapping │ └── python_models/ │ ├── add_sub/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── add_sub_gpu/ │ │ └── config.pbtxt │ ├── async_execute_decouple/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── async_execute_decouple_bls/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── auto_complete/ │ │ └── model.py │ ├── auto_complete_error/ │ │ └── model.py │ ├── bls/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_async/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_finalize_error/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_init_error/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_memory/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_memory_async/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_model_loading/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_onnx_warmup/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_parameters/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_request_rescheduling/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── bls_simple/ │ │ └── bls_simple.py │ ├── bls_undefined/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── busy_op/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── cuda_memory_consumer/ │ │ ├── 1/ │ │ │ └── model.py │ │ └── config.pbtxt │ ├── custom_metrics/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── delayed_model/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── dlpack_add_sub/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── dlpack_empty_output/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── dlpack_identity/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── dlpack_io_identity/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── dlpack_io_identity_decoupled/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── dlpack_square/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── dlpack_sub_add/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── dlpack_test/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── ensemble/ │ │ └── config.pbtxt │ ├── ensemble_gpu/ │ │ └── config.pbtxt │ ├── ensemble_io/ │ │ └── config.pbtxt │ ├── error_code/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── execute_cancel/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── execute_delayed_model/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── execute_error/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── execute_grpc_error/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── execute_return_error/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── fan_add_sub/ │ │ └── config.pbtxt │ ├── fini_error/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── generate_models/ │ │ └── mock_llm/ │ │ ├── 1/ │ │ │ └── model.py │ │ └── config.pbtxt │ ├── ground_truth/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── identity_bf16/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── identity_fp32/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── identity_fp32_logging/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── identity_fp32_timeout/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── init_args/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── init_error/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── init_exit/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── iterative_sequence/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── model_env/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── model_init_del/ │ │ ├── config.pbtxt │ │ ├── model.py │ │ └── util.py │ ├── multi_file/ │ │ ├── file1.py │ │ ├── file2.py │ │ └── model.py │ ├── non_contiguous/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── optional/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── python_based_backends/ │ │ └── add_sub_backend/ │ │ └── model.py │ ├── python_version/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── pytorch_fp32_fp32/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── request_rescheduling_addsub/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── response_parameters/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── response_parameters_bls/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── response_parameters_decoupled/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── response_sender/ │ │ ├── config.pbtxt │ │ ├── model.py │ │ ├── model_async.py │ │ └── model_common.py │ ├── response_sender_complete_final/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── response_sender_error/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── response_sender_until_cancelled/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── sequence_int32/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── sequence_py/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── simple_identity_fp32/ │ │ └── config.pbtxt │ ├── string/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── string_fixed/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── string_identity/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── sub_add/ │ │ └── model.py │ ├── torchvision/ │ │ └── resnet50/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── variable_gpu_output/ │ │ ├── config.pbtxt │ │ └── model.py │ ├── wrong_model/ │ │ ├── config.pbtxt │ │ └── model.py │ └── wrong_return_type/ │ ├── config.pbtxt │ └── model.py ├── src/ │ ├── CMakeLists.txt │ ├── classification.cc │ ├── classification.h │ ├── command_line_parser.cc │ ├── command_line_parser.h │ ├── common.cc │ ├── common.h │ ├── data_compressor.h │ ├── grpc/ │ │ ├── CMakeLists.txt │ │ ├── grpc_handler.h │ │ ├── grpc_server.cc │ │ ├── grpc_server.h │ │ ├── grpc_utils.cc │ │ ├── grpc_utils.h │ │ ├── infer_handler.cc │ │ ├── infer_handler.h │ │ ├── stream_infer_handler.cc │ │ └── stream_infer_handler.h │ ├── http_server.cc │ ├── http_server.h │ ├── main.cc │ ├── memory_alloc.cc │ ├── multi_server.cc │ ├── orca_http.cc │ ├── orca_http.h │ ├── python/ │ │ ├── CMakeLists.txt │ │ ├── build_wheel.py │ │ ├── examples/ │ │ │ ├── example.py │ │ │ └── example_model_repository/ │ │ │ └── identity/ │ │ │ ├── 1/ │ │ │ │ └── model.onnx │ │ │ └── config.pbtxt │ │ ├── setup.py │ │ └── tritonfrontend/ │ │ ├── CMakeLists.txt │ │ ├── __init__.py │ │ ├── __init__.pyi │ │ ├── _api/ │ │ │ ├── __init__.py │ │ │ ├── _error_mapping.py │ │ │ ├── _kservegrpc.py │ │ │ ├── _kservegrpc.pyi │ │ │ ├── _kservehttp.py │ │ │ ├── _kservehttp.pyi │ │ │ ├── _metrics.py │ │ │ └── _metrics.pyi │ │ ├── _c/ │ │ │ ├── __init__.py │ │ │ ├── __init__.pyi │ │ │ ├── tritonfrontend.h │ │ │ ├── tritonfrontend_bindings.pyi │ │ │ └── tritonfrontend_pybind.cc │ │ └── py.typed │ ├── restricted_features.h │ ├── sagemaker_server.cc │ ├── sagemaker_server.h │ ├── shared_memory_manager.cc │ ├── shared_memory_manager.h │ ├── simple.cc │ ├── test/ │ │ ├── CMakeLists.txt │ │ ├── data_compressor_test.cc │ │ ├── distributed_addsub/ │ │ │ ├── CMakeLists.txt │ │ │ ├── cmake/ │ │ │ │ └── TritonDistributedAddsubBackendConfig.cmake.in │ │ │ └── src/ │ │ │ ├── distributed_addsub.cc │ │ │ └── libtriton_distributed_addsub.ldscript │ │ ├── dyna_sequence/ │ │ │ ├── CMakeLists.txt │ │ │ ├── cmake/ │ │ │ │ └── TritonDynaSequenceBackendConfig.cmake.in │ │ │ └── src/ │ │ │ ├── dyna_sequence.cc │ │ │ └── libtriton_dyna_sequence.ldscript │ │ ├── implicit_state/ │ │ │ ├── CMakeLists.txt │ │ │ ├── cmake/ │ │ │ │ └── TritonImplicitStateBackendConfig.cmake.in │ │ │ └── src/ │ │ │ ├── implicit_state.cc │ │ │ └── libtriton_implicit_state.ldscript │ │ ├── iterative_sequence/ │ │ │ ├── CMakeLists.txt │ │ │ ├── cmake/ │ │ │ │ └── TritonIterativeSequenceBackendConfig.cmake.in │ │ │ └── src/ │ │ │ ├── iterative_sequence.cc │ │ │ └── libtriton_iterative_sequence.ldscript │ │ ├── models/ │ │ │ ├── identity_fp32/ │ │ │ │ └── config.pbtxt │ │ │ ├── repeat_int32/ │ │ │ │ └── config.pbtxt │ │ │ └── square_int32/ │ │ │ └── config.pbtxt │ │ ├── query_backend/ │ │ │ ├── CMakeLists.txt │ │ │ ├── cmake/ │ │ │ │ └── TritonQueryBackendConfig.cmake.in │ │ │ └── src/ │ │ │ ├── libtriton_query.ldscript │ │ │ └── query.cc │ │ ├── repoagent/ │ │ │ └── relocation_repoagent/ │ │ │ ├── CMakeLists.txt │ │ │ ├── cmake/ │ │ │ │ └── TritonRelocationRepoAgentConfig.cmake.in │ │ │ └── src/ │ │ │ ├── libtritonrepoagent_relocation.ldscript │ │ │ └── relocation.cc │ │ ├── sequence/ │ │ │ ├── CMakeLists.txt │ │ │ ├── cmake/ │ │ │ │ └── TritonSequenceBackendConfig.cmake.in │ │ │ └── src/ │ │ │ ├── libtriton_sequence.ldscript │ │ │ └── sequence.cc │ │ └── tensor_size_test.cc │ ├── tracer.cc │ ├── tracer.h │ ├── triton_signal.cc │ ├── triton_signal.h │ ├── vertex_ai_server.cc │ └── vertex_ai_server.h └── tools/ └── add_copyright.py