gitextract_l_yjgk53/ ├── .clang-format ├── .editorconfig ├── .git-blame-ignore-revs ├── .gitattributes ├── .github/ │ ├── FUNDING.yml │ ├── ISSUE_TEMPLATE/ │ │ ├── bug-report.yml │ │ └── feature-request.yml │ ├── dependabot.yml.disabled │ ├── scripts/ │ │ ├── auditwheel_show.py │ │ ├── build-cpu.sh │ │ ├── build-cuda.sh │ │ ├── build-rocm.sh │ │ ├── build-xpu-windows.bat │ │ ├── build-xpu.sh │ │ └── set_platform_tag.py │ └── workflows/ │ ├── build_documentation.yml │ ├── build_pr_documentation.yml │ ├── lint.yml │ ├── python-package.yml │ ├── stale.yml.disabled │ ├── test-runner.yml │ ├── tests-nightly.yml │ ├── tests-pr.yml │ └── upload_pr_documentation.yml ├── .gitignore ├── .pre-commit-config.yaml ├── .vscode/ │ ├── extensions.json │ └── settings.json ├── CHANGELOG.md ├── CLAUDE.md ├── CMakeLists.txt ├── CODE_OF_CONDUCT.md ├── COMPILE_H100_L40.md ├── CONTRIBUTING.md ├── LICENSE ├── MANIFEST.in ├── NOTICE.md ├── README.md ├── SECURITY.md ├── _typos.toml ├── agents/ │ ├── api_surface.md │ ├── architecture_guide.md │ ├── code_standards.md │ ├── dispatch_guide.md │ ├── downstream_integrations.md │ ├── fetch_issues.py │ ├── github_tools_guide.md │ ├── issue_maintenance_guide.md │ ├── issue_patterns.md │ ├── issue_triage_workflow.md │ ├── linting_guide.md │ ├── pr_review_guide.md │ ├── query_issues.py │ ├── security_guide.md │ ├── testing_guide.md │ └── worktree_guide.md ├── benchmarking/ │ ├── README.md │ ├── inference_benchmark.py │ ├── int8/ │ │ ├── int8_benchmark.py │ │ └── training_benchmark.py │ ├── matmul_benchmark.py │ ├── optimizer_benchmark.py │ └── xpu/ │ └── inference_benchmark.py ├── bitsandbytes/ │ ├── __init__.py │ ├── __main__.py │ ├── _ops.py │ ├── autograd/ │ │ ├── __init__.py │ │ └── _functions.py │ ├── backends/ │ │ ├── __init__.py │ │ ├── cpu/ │ │ │ ├── __init__.py │ │ │ └── ops.py │ │ ├── cuda/ │ │ │ ├── __init__.py │ │ │ └── ops.py │ │ ├── default/ │ │ │ ├── __init__.py │ │ │ └── ops.py │ │ ├── hpu/ │ │ │ ├── __init__.py │ │ │ └── ops.py │ │ ├── mps/ │ │ │ ├── __init__.py │ │ │ └── ops.py │ │ ├── triton/ │ │ │ ├── __init__.py │ │ │ ├── kernels_4bit.py │ │ │ ├── kernels_8bit_quant.py │ │ │ ├── kernels_optim.py │ │ │ └── ops.py │ │ ├── utils.py │ │ └── xpu/ │ │ ├── __init__.py │ │ └── ops.py │ ├── cextension.py │ ├── consts.py │ ├── cuda_specs.py │ ├── diagnostics/ │ │ ├── __init__.py │ │ ├── cuda.py │ │ ├── main.py │ │ └── utils.py │ ├── functional.py │ ├── nn/ │ │ ├── __init__.py │ │ ├── modules.py │ │ └── parametrize.py │ ├── optim/ │ │ ├── __init__.py │ │ ├── adagrad.py │ │ ├── adam.py │ │ ├── adamw.py │ │ ├── ademamix.py │ │ ├── lamb.py │ │ ├── lars.py │ │ ├── lion.py │ │ ├── optimizer.py │ │ ├── rmsprop.py │ │ └── sgd.py │ ├── py.typed │ └── utils.py ├── check_bnb_install.py ├── csrc/ │ ├── common.cuh │ ├── common.h │ ├── compat.cuh │ ├── compat_device.cuh │ ├── cpu_ops.cpp │ ├── cpu_ops.h │ ├── kernels.cu │ ├── kernels.cuh │ ├── mps_kernels.metal │ ├── mps_ops.mm │ ├── ops.cu │ ├── ops.cuh │ ├── pythonInterface.cpp │ ├── xpu_kernels.cpp │ ├── xpu_kernels.h │ ├── xpu_ops.cpp │ └── xpu_ops.h ├── docs/ │ └── source/ │ ├── _toctree.yml │ ├── contributing.mdx │ ├── errors.mdx │ ├── explanations/ │ │ ├── optimizers.mdx │ │ └── resources.mdx │ ├── faqs.mdx │ ├── fsdp_qlora.md │ ├── index.mdx │ ├── installation.mdx │ ├── integrations.mdx │ ├── optimizers.mdx │ ├── quickstart.mdx │ └── reference/ │ ├── functional.mdx │ ├── nn/ │ │ ├── embeddings.mdx │ │ ├── linear4bit.mdx │ │ └── linear8bit.mdx │ └── optim/ │ ├── adagrad.mdx │ ├── adam.mdx │ ├── adamw.mdx │ ├── ademamix.mdx │ ├── lamb.mdx │ ├── lars.mdx │ ├── lion.mdx │ ├── optim_overview.mdx │ ├── rmsprop.mdx │ └── sgd.mdx ├── examples/ │ ├── compile_inference.py │ ├── int8_inference_huggingface.py │ └── xpu/ │ ├── benchmark_paged_memory.py │ └── paged_xpu_training.py ├── install_cuda.py ├── install_cuda.sh ├── pyproject.toml ├── scripts/ │ └── stale.py ├── setup.py └── tests/ ├── __init__.py ├── conftest.py ├── fsdp_state_dict_save.py ├── helpers.py ├── test_autograd.py ├── test_cuda_setup_evaluator.py ├── test_functional.py ├── test_generation.py ├── test_linear4bit.py ├── test_linear8bitlt.py ├── test_modules.py ├── test_ops.py ├── test_optim.py └── test_parametrize.py