gitextract_vi30yky3/ ├── .github/ │ ├── scripts/ │ │ ├── build.sh │ │ ├── check_for_ngc_images.sh │ │ └── test.sh │ └── workflows/ │ ├── _build.yml │ ├── _build_in_container.yml │ ├── build.yml │ ├── build_in_container.yml │ └── publish.yaml ├── .gitignore ├── .gitmodules ├── AUTHORS ├── LICENSE ├── MANIFEST.in ├── README.md ├── benchmarks/ │ └── benchmark_generation_mamba_simple.py ├── csrc/ │ └── selective_scan/ │ ├── reverse_scan.cuh │ ├── selective_scan.cpp │ ├── selective_scan.h │ ├── selective_scan_bwd_bf16_complex.cu │ ├── selective_scan_bwd_bf16_real.cu │ ├── selective_scan_bwd_fp16_complex.cu │ ├── selective_scan_bwd_fp16_real.cu │ ├── selective_scan_bwd_fp32_complex.cu │ ├── selective_scan_bwd_fp32_real.cu │ ├── selective_scan_bwd_kernel.cuh │ ├── selective_scan_common.h │ ├── selective_scan_fwd_bf16.cu │ ├── selective_scan_fwd_fp16.cu │ ├── selective_scan_fwd_fp32.cu │ ├── selective_scan_fwd_kernel.cuh │ ├── static_switch.h │ └── uninitialized_copy.cuh ├── evals/ │ └── lm_harness_eval.py ├── mamba_ssm/ │ ├── __init__.py │ ├── distributed/ │ │ ├── __init__.py │ │ ├── distributed_utils.py │ │ └── tensor_parallel.py │ ├── models/ │ │ ├── __init__.py │ │ ├── config_mamba.py │ │ └── mixer_seq_simple.py │ ├── modules/ │ │ ├── __init__.py │ │ ├── block.py │ │ ├── mamba2.py │ │ ├── mamba2_simple.py │ │ ├── mamba3.py │ │ ├── mamba_simple.py │ │ ├── mha.py │ │ ├── mlp.py │ │ └── ssd_minimal.py │ ├── ops/ │ │ ├── __init__.py │ │ ├── cute/ │ │ │ └── mamba3/ │ │ │ └── mamba3_step_fn.py │ │ ├── selective_scan_interface.py │ │ ├── tilelang/ │ │ │ └── mamba3/ │ │ │ ├── mamba3_mimo.py │ │ │ ├── mamba3_mimo_bwd.py │ │ │ └── mamba3_mimo_fwd.py │ │ └── triton/ │ │ ├── __init__.py │ │ ├── angle_cumsum.py │ │ ├── k_activations.py │ │ ├── layer_norm.py │ │ ├── layernorm_gated.py │ │ ├── mamba3/ │ │ │ ├── angle_dt.py │ │ │ ├── mamba3_mimo_rotary_step.py │ │ │ ├── mamba3_mimo_utils.py │ │ │ ├── mamba3_siso_bwd.py │ │ │ ├── mamba3_siso_combined.py │ │ │ ├── mamba3_siso_fwd.py │ │ │ ├── mamba3_siso_step.py │ │ │ └── utils.py │ │ ├── selective_state_update.py │ │ ├── softplus.py │ │ ├── ssd_bmm.py │ │ ├── ssd_chunk_scan.py │ │ ├── ssd_chunk_state.py │ │ ├── ssd_combined.py │ │ └── ssd_state_passing.py │ └── utils/ │ ├── __init__.py │ ├── determinism.py │ ├── generation.py │ ├── hf.py │ └── torch.py ├── pyproject.toml ├── rocm_patch/ │ └── rocm6_0.patch ├── setup.py ├── tests/ │ ├── benchmark_determinism_kernels.py │ ├── ops/ │ │ ├── cute/ │ │ │ └── test_mamba3_mimo_step.py │ │ ├── test_selective_scan.py │ │ ├── tilelang/ │ │ │ └── test_mamba3_mimo.py │ │ └── triton/ │ │ ├── test_layernorm_gated.py │ │ ├── test_mamba3_siso.py │ │ ├── test_selective_state_update.py │ │ └── test_ssd.py │ ├── test_determinism.py │ └── test_generation.py └── usage.md