gitextract_pa_r2orm/ ├── .github/ │ ├── ISSUE_TEMPLATE/ │ │ └── bug_report.md │ └── workflows/ │ ├── add-to-project.yml │ ├── license-header-check.yml │ ├── markdown-links-check/ │ │ └── markdown-links-check-config.json │ ├── markdown-links-check.yml │ ├── shell-check.yml │ └── signoff-check.yml ├── .gitignore ├── CONTRIBUTING.md ├── LICENSE ├── README.md ├── dockerfile/ │ ├── Dockerfile │ └── gpu_executor_template.yaml ├── docs/ │ ├── get-started/ │ │ └── xgboost-examples/ │ │ ├── building-sample-apps/ │ │ │ ├── python.md │ │ │ └── scala.md │ │ ├── csp/ │ │ │ ├── aws/ │ │ │ │ └── ec2.md │ │ │ ├── databricks/ │ │ │ │ ├── databricks.md │ │ │ │ └── init.sh │ │ │ └── dataproc/ │ │ │ └── gcp.md │ │ ├── dataset/ │ │ │ └── mortgage.md │ │ ├── notebook/ │ │ │ ├── python-notebook.md │ │ │ ├── spylon.md │ │ │ └── toree.md │ │ ├── on-prem-cluster/ │ │ │ ├── kubernetes-scala.md │ │ │ ├── standalone-python.md │ │ │ ├── standalone-scala.md │ │ │ ├── yarn-python.md │ │ │ └── yarn-scala.md │ │ └── prepare-package-data/ │ │ ├── preparation-python.md │ │ └── preparation-scala.md │ └── trouble-shooting/ │ └── xgboost-examples-trouble-shooting.md ├── examples/ │ ├── MIG-Support/ │ │ ├── README.md │ │ ├── device-plugins/ │ │ │ └── gpu-mig/ │ │ │ ├── README.md │ │ │ ├── pom.xml │ │ │ ├── scripts/ │ │ │ │ └── getMIGGPUs │ │ │ └── src/ │ │ │ ├── main/ │ │ │ │ └── java/ │ │ │ │ └── com/ │ │ │ │ └── nvidia/ │ │ │ │ └── spark/ │ │ │ │ └── NvidiaGPUMigPluginForRuntimeV2.java │ │ │ └── test/ │ │ │ └── java/ │ │ │ └── com/ │ │ │ └── nvidia/ │ │ │ └── spark/ │ │ │ └── TestNvidiaGPUMigPluginForRuntimeV2.java │ │ ├── resource-types/ │ │ │ └── gpu-mig/ │ │ │ ├── README.md │ │ │ ├── yarn312MIG.patch │ │ │ ├── yarn313to315MIG.patch │ │ │ └── yarn321to323MIG.patch │ │ └── yarn-unpatched/ │ │ ├── README.md │ │ └── scripts/ │ │ ├── mig2gpu.sh │ │ ├── nvidia-container-cli-wrapper.sh │ │ └── nvidia-smi │ ├── ML+DL-Examples/ │ │ ├── Optuna-Spark/ │ │ │ ├── README.md │ │ │ └── optuna-examples/ │ │ │ ├── databricks/ │ │ │ │ ├── init_optuna.sh │ │ │ │ └── start_cluster.sh │ │ │ ├── optuna-dataframe.ipynb │ │ │ └── optuna-joblibspark.ipynb │ │ ├── Spark-DL/ │ │ │ └── dl_inference/ │ │ │ ├── README.md │ │ │ ├── databricks/ │ │ │ │ ├── README.md │ │ │ │ └── setup/ │ │ │ │ ├── init_spark_dl.sh │ │ │ │ └── start_cluster.sh │ │ │ ├── dataproc/ │ │ │ │ ├── README.md │ │ │ │ └── setup/ │ │ │ │ ├── init_spark_dl.sh │ │ │ │ └── start_cluster.sh │ │ │ ├── huggingface/ │ │ │ │ ├── conditional_generation_tf.ipynb │ │ │ │ ├── conditional_generation_torch.ipynb │ │ │ │ ├── deepseek-r1_torch.ipynb │ │ │ │ ├── gemma-7b_torch.ipynb │ │ │ │ ├── pipelines_tf.ipynb │ │ │ │ ├── pipelines_torch.ipynb │ │ │ │ ├── qwen-2.5-7b_torch.ipynb │ │ │ │ └── sentence_transformers_torch.ipynb │ │ │ ├── pytorch/ │ │ │ │ ├── housing_regression_torch.ipynb │ │ │ │ └── image_classification_torch.ipynb │ │ │ ├── requirements.txt │ │ │ ├── server_utils.py │ │ │ ├── tensorflow/ │ │ │ │ ├── image_classification_tf.ipynb │ │ │ │ ├── keras_preprocessing_tf.ipynb │ │ │ │ ├── keras_resnet50_tf.ipynb │ │ │ │ └── text_classification_tf.ipynb │ │ │ ├── tf_requirements.txt │ │ │ ├── torch_requirements.txt │ │ │ ├── vllm/ │ │ │ │ ├── qwen-2.5-14b-tensor-parallel_vllm.ipynb │ │ │ │ └── qwen-2.5-7b_vllm.ipynb │ │ │ └── vllm_requirements.txt │ │ └── Spark-Rapids-ML/ │ │ └── pca/ │ │ ├── README.md │ │ ├── notebooks/ │ │ │ └── pca.ipynb │ │ └── start-spark-rapids.sh │ ├── SQL+DF-Examples/ │ │ ├── customer-churn/ │ │ │ ├── README.md │ │ │ └── notebooks/ │ │ │ └── python/ │ │ │ ├── README.md │ │ │ ├── augment.ipynb │ │ │ ├── churn/ │ │ │ │ ├── augment.py │ │ │ │ ├── eda.py │ │ │ │ └── etl.py │ │ │ └── etl.ipynb │ │ ├── demo/ │ │ │ ├── Spark_get_json_object.ipynb │ │ │ └── Spark_parquet_microkernels.ipynb │ │ ├── micro-benchmarks/ │ │ │ ├── README.md │ │ │ └── notebooks/ │ │ │ ├── micro-benchmarks-cpu.ipynb │ │ │ └── micro-benchmarks-gpu.ipynb │ │ ├── retail-analytics/ │ │ │ ├── README.md │ │ │ └── notebooks/ │ │ │ └── python/ │ │ │ ├── retail-analytic.ipynb │ │ │ └── retail-datagen.ipynb │ │ └── tpcds/ │ │ ├── README.md │ │ └── notebooks/ │ │ └── TPCDS-SF10.ipynb │ ├── UDF-Examples/ │ │ └── RAPIDS-accelerated-UDFs/ │ │ ├── Dockerfile │ │ ├── README.md │ │ ├── clone-cudf-repo.sh │ │ ├── conftest.py │ │ ├── extract-cudf-libs.sh │ │ ├── pom.xml │ │ ├── pytest.ini │ │ ├── run_pyspark_from_build.sh │ │ ├── runtests.py │ │ └── src/ │ │ └── main/ │ │ ├── cpp/ │ │ │ ├── CMakeLists.txt │ │ │ ├── benchmarks/ │ │ │ │ ├── CMakeLists.txt │ │ │ │ ├── cosine_similarity/ │ │ │ │ │ └── cosine_similarity_benchmark.cpp │ │ │ │ ├── fixture/ │ │ │ │ │ └── benchmark_fixture.hpp │ │ │ │ └── synchronization/ │ │ │ │ ├── synchronization.cpp │ │ │ │ └── synchronization.hpp │ │ │ └── src/ │ │ │ ├── CosineSimilarityJni.cpp │ │ │ ├── StringWordCountJni.cpp │ │ │ ├── cosine_similarity.cu │ │ │ ├── cosine_similarity.hpp │ │ │ ├── string_word_count.cu │ │ │ └── string_word_count.hpp │ │ ├── java/ │ │ │ └── com/ │ │ │ └── nvidia/ │ │ │ └── spark/ │ │ │ └── rapids/ │ │ │ └── udf/ │ │ │ ├── hive/ │ │ │ │ ├── DecimalFraction.java │ │ │ │ ├── StringWordCount.java │ │ │ │ ├── URLDecode.java │ │ │ │ └── URLEncode.java │ │ │ └── java/ │ │ │ ├── CosineSimilarity.java │ │ │ ├── DecimalFraction.java │ │ │ ├── NativeUDFExamplesLoader.java │ │ │ ├── URLDecode.java │ │ │ └── URLEncode.java │ │ ├── python/ │ │ │ ├── asserts.py │ │ │ ├── conftest.py │ │ │ ├── data_gen.py │ │ │ ├── rapids_udf_test.py │ │ │ ├── spark_init_internal.py │ │ │ └── spark_session.py │ │ └── scala/ │ │ └── com/ │ │ └── nvidia/ │ │ └── spark/ │ │ └── rapids/ │ │ └── udf/ │ │ └── scala/ │ │ ├── URLDecode.scala │ │ └── URLEncode.scala │ ├── XGBoost-Examples/ │ │ ├── .gitignore │ │ ├── README.md │ │ ├── agaricus/ │ │ │ ├── .gitignore │ │ │ ├── notebooks/ │ │ │ │ ├── python/ │ │ │ │ │ └── agaricus-gpu.ipynb │ │ │ │ └── scala/ │ │ │ │ └── agaricus-gpu.ipynb │ │ │ ├── pom.xml │ │ │ ├── python/ │ │ │ │ └── com/ │ │ │ │ ├── __init__.py │ │ │ │ └── nvidia/ │ │ │ │ ├── __init__.py │ │ │ │ └── spark/ │ │ │ │ ├── __init__.py │ │ │ │ └── examples/ │ │ │ │ ├── __init__.py │ │ │ │ └── agaricus/ │ │ │ │ ├── __init__.py │ │ │ │ └── main.py │ │ │ └── scala/ │ │ │ └── src/ │ │ │ └── com/ │ │ │ └── nvidia/ │ │ │ └── spark/ │ │ │ └── examples/ │ │ │ └── agaricus/ │ │ │ └── Main.scala │ │ ├── aggregator/ │ │ │ └── .gitignore │ │ ├── app-parameters/ │ │ │ ├── supported_xgboost_parameters_python.md │ │ │ └── supported_xgboost_parameters_scala.md │ │ ├── assembly/ │ │ │ └── assembly-no-scala.xml │ │ ├── main.py │ │ ├── mortgage/ │ │ │ ├── .gitignore │ │ │ ├── notebooks/ │ │ │ │ ├── python/ │ │ │ │ │ ├── MortgageETL+XGBoost.ipynb │ │ │ │ │ ├── MortgageETL.ipynb │ │ │ │ │ ├── cv-mortgage-gpu.ipynb │ │ │ │ │ └── mortgage-gpu.ipynb │ │ │ │ └── scala/ │ │ │ │ ├── mortgage-ETL.ipynb │ │ │ │ ├── mortgage-gpu.ipynb │ │ │ │ └── mortgage_gpu_crossvalidation.ipynb │ │ │ ├── pom.xml │ │ │ ├── python/ │ │ │ │ └── com/ │ │ │ │ ├── __init__.py │ │ │ │ └── nvidia/ │ │ │ │ ├── __init__.py │ │ │ │ └── spark/ │ │ │ │ ├── __init__.py │ │ │ │ └── examples/ │ │ │ │ ├── __init__.py │ │ │ │ └── mortgage/ │ │ │ │ ├── __init__.py │ │ │ │ ├── consts.py │ │ │ │ ├── cross_validator_main.py │ │ │ │ ├── etl.py │ │ │ │ ├── etl_main.py │ │ │ │ └── main.py │ │ │ └── scala/ │ │ │ └── src/ │ │ │ └── com/ │ │ │ └── nvidia/ │ │ │ └── spark/ │ │ │ └── examples/ │ │ │ └── mortgage/ │ │ │ ├── CrossValidationMain.scala │ │ │ ├── ETLMain.scala │ │ │ ├── Main.scala │ │ │ ├── Mortgage.scala │ │ │ └── XGBoostETL.scala │ │ ├── pack_pyspark_example.sh │ │ ├── pom.xml │ │ ├── taxi/ │ │ │ ├── .gitignore │ │ │ ├── notebooks/ │ │ │ │ ├── python/ │ │ │ │ │ ├── cv-taxi-gpu.ipynb │ │ │ │ │ ├── taxi-ETL.ipynb │ │ │ │ │ └── taxi-gpu.ipynb │ │ │ │ └── scala/ │ │ │ │ ├── taxi-ETL.ipynb │ │ │ │ ├── taxi-gpu.ipynb │ │ │ │ └── taxi_gpu_crossvalidation.ipynb │ │ │ ├── pom.xml │ │ │ ├── python/ │ │ │ │ └── com/ │ │ │ │ ├── __init__.py │ │ │ │ └── nvidia/ │ │ │ │ ├── __init__.py │ │ │ │ └── spark/ │ │ │ │ ├── __init__.py │ │ │ │ └── examples/ │ │ │ │ ├── __init__.py │ │ │ │ └── taxi/ │ │ │ │ ├── __init__.py │ │ │ │ ├── consts.py │ │ │ │ ├── cross_validator_main.py │ │ │ │ ├── etl_main.py │ │ │ │ ├── main.py │ │ │ │ └── pre_process.py │ │ │ └── scala/ │ │ │ └── src/ │ │ │ └── com/ │ │ │ └── nvidia/ │ │ │ └── spark/ │ │ │ └── examples/ │ │ │ └── taxi/ │ │ │ ├── CrossValidationMain.scala │ │ │ ├── ETLMain.scala │ │ │ ├── Main.scala │ │ │ └── Taxi.scala │ │ └── utility/ │ │ ├── .gitignore │ │ ├── pom.xml │ │ ├── python/ │ │ │ └── com/ │ │ │ ├── __init__.py │ │ │ └── nvidia/ │ │ │ ├── __init__.py │ │ │ └── spark/ │ │ │ ├── __init__.py │ │ │ └── examples/ │ │ │ ├── __init__.py │ │ │ ├── main.py │ │ │ └── utility/ │ │ │ ├── __init__.py │ │ │ ├── args.py │ │ │ └── utils.py │ │ └── scala/ │ │ └── src/ │ │ └── com/ │ │ └── nvidia/ │ │ └── spark/ │ │ └── examples/ │ │ └── utility/ │ │ ├── Benchmark.scala │ │ ├── SparkSetup.scala │ │ ├── Vectorize.scala │ │ └── XGBoostArgs.scala │ └── spark-connect-gpu/ │ ├── client/ │ │ ├── Dockerfile │ │ ├── README.md │ │ ├── docker-compose.yaml │ │ ├── nds/ │ │ │ ├── nds.ipynb │ │ │ └── query_0.sql │ │ ├── notebook/ │ │ │ ├── README.md │ │ │ ├── spark-connect-gpu-etl-ml.ipynb │ │ │ └── work/ │ │ │ ├── csv_raw_schema.ddl │ │ │ └── name_mapping.csv │ │ ├── python/ │ │ │ ├── batch-job.ipynb │ │ │ └── batch-job.py │ │ ├── requirements.txt │ │ └── scala/ │ │ ├── .gitignore │ │ ├── pom.xml │ │ ├── run.sh │ │ ├── scala-run.ipynb │ │ └── src/ │ │ └── main/ │ │ └── scala/ │ │ └── connect.scala │ └── server/ │ ├── README.md │ ├── docker-compose.yaml │ ├── proxy-service/ │ │ ├── Dockerfile │ │ └── nginx.conf │ ├── spark-connect-server/ │ │ ├── Dockerfile │ │ ├── requirements.txt │ │ ├── spark-defaults.conf │ │ └── spark-env.sh │ ├── spark-master/ │ │ ├── Dockerfile │ │ └── spark-env.sh │ └── spark-worker/ │ ├── Dockerfile │ ├── requirements.txt │ └── spark-env.sh ├── scripts/ │ ├── README.md │ ├── building/ │ │ └── python_build.sh │ ├── csp-startup-scripts/ │ │ ├── README.md │ │ └── emr/ │ │ ├── cgroup-bootstrap-action-emr6.sh │ │ ├── cgroup-bootstrap-action-emr7.sh │ │ ├── config-emr6.json │ │ ├── config-emr7.json │ │ └── emr-spark-plugin-startup.py │ ├── encoding/ │ │ └── python/ │ │ ├── .gitignore │ │ ├── com/ │ │ │ ├── __init__.py │ │ │ └── nvidia/ │ │ │ ├── __init__.py │ │ │ └── spark/ │ │ │ ├── __init__.py │ │ │ └── encoding/ │ │ │ ├── __init__.py │ │ │ ├── criteo/ │ │ │ │ ├── __init__.py │ │ │ │ ├── common.py │ │ │ │ ├── one_hot_cpu_main.py │ │ │ │ └── target_cpu_main.py │ │ │ ├── main.py │ │ │ └── utility/ │ │ │ ├── __init__.py │ │ │ ├── args.py │ │ │ └── utils.py │ │ └── main.py │ └── encoding-sample/ │ ├── repartition.py │ ├── run.sh │ └── truncate-model.py └── tools/ ├── databricks/ │ ├── README.md │ ├── [RAPIDS Accelerator for Apache Spark] Profiling Tool Notebook Template.ipynb │ └── [RAPIDS Accelerator for Apache Spark] Qualification Tool Notebook Template.ipynb └── emr/ ├── README.md ├── [RAPIDS Accelerator for Apache Spark] Profiling Tool Notebook Template.ipynb └── [RAPIDS Accelerator for Apache Spark] Qualification Tool Notebook Template.ipynb