gitextract_pu2g2804/ ├── .gitignore ├── .gitmodules ├── Dockerfile ├── LICENSE ├── README.md ├── __init__.py ├── ae/ │ ├── .gitignore │ ├── __init__.py │ ├── figure10/ │ │ ├── __init__.py │ │ ├── plot_latency.py │ │ ├── run_figure10.sh │ │ └── test_latency.py │ ├── figure11/ │ │ ├── __init__.py │ │ ├── plot_decoding.py │ │ ├── run_figure11.sh │ │ └── test_decoding.py │ ├── figure12/ │ │ ├── __init__.py │ │ ├── plot_throughput.py │ │ ├── run_figure12.sh │ │ └── test_throughput.py │ ├── figure5/ │ │ ├── __init__.py │ │ ├── ab/ │ │ │ ├── __init__.py │ │ │ ├── plot_matmul.py │ │ │ ├── real_hardware/ │ │ │ │ ├── matmul_A100.csv │ │ │ │ └── matmul_MI210.csv │ │ │ ├── run.sh │ │ │ └── test_matmul.py │ │ ├── cf/ │ │ │ ├── __init__.py │ │ │ ├── plot_softmax.py │ │ │ ├── real_hardware/ │ │ │ │ ├── softmax_A100.csv │ │ │ │ └── softmax_MI210.csv │ │ │ ├── run.sh │ │ │ └── test_softmax.py │ │ ├── de/ │ │ │ ├── __init__.py │ │ │ ├── plot_layernorm.py │ │ │ ├── real_hardware/ │ │ │ │ ├── layernorm_A100.csv │ │ │ │ └── layernorm_MI210.csv │ │ │ ├── run.sh │ │ │ └── test_layernorm.py │ │ ├── g/ │ │ │ ├── __init__.py │ │ │ ├── plot_gelu.py │ │ │ ├── real_hardware/ │ │ │ │ ├── gelu_A100.csv │ │ │ │ └── gelu_MI210.csv │ │ │ ├── run.sh │ │ │ └── test_gelu.py │ │ ├── h/ │ │ │ ├── __init__.py │ │ │ ├── run.sh │ │ │ └── test_allreduce.py │ │ ├── ijkl/ │ │ │ ├── __init__.py │ │ │ ├── plot_transformer.py │ │ │ ├── real_hardware/ │ │ │ │ ├── transformerAR_A100.csv │ │ │ │ └── transformer_A100.csv │ │ │ ├── run.sh │ │ │ └── test_transformer.py │ │ └── run_figure5.sh │ ├── figure6/ │ │ ├── real_hardware/ │ │ │ └── die_area.csv │ │ ├── run_figure6.sh │ │ └── test_cost_model.py │ ├── figure7/ │ │ ├── __init__.py │ │ ├── change_core_size.py │ │ ├── plot_core_size.py │ │ └── run_figure7.sh │ ├── figure8/ │ │ ├── __init__.py │ │ ├── change_memory_bw.py │ │ ├── plot_memory_bw.py │ │ └── run_figure8.sh │ └── figure9/ │ ├── __init__.py │ ├── change_l1_cache.py │ ├── plot_l1_cache.py │ └── run_figure9.sh ├── configs/ │ ├── GA100.json │ ├── ga102_template.json │ ├── generation_system.json │ ├── latency_design.json │ ├── mi210.json │ ├── mi210_template.json │ ├── prefilling_system.json │ └── template.json ├── cost_model/ │ ├── __init__.py │ ├── cost_examples.py │ ├── cost_model.py │ └── regfile_area.py ├── design_space_exploration/ │ ├── __init__.py │ └── dse.py ├── docs/ │ └── run.md ├── environment.yml ├── hardware_model/ │ ├── __init__.py │ ├── arch_template.py │ ├── compute_module.py │ ├── device.py │ ├── interconnect.py │ ├── io_module.py │ ├── memory_module.py │ └── system.py ├── software_model/ │ ├── __init__.py │ ├── communication_primitives.py │ ├── gelu.py │ ├── layernorm.py │ ├── matmul.py │ ├── operators.py │ ├── softmax.py │ ├── transformer.py │ └── utils.py ├── systolic_array_model/ │ ├── look_up_table.csv │ ├── look_up_table_128_128.csv │ ├── look_up_table_16_16.csv │ ├── look_up_table_32_32.csv │ ├── look_up_table_64_64.csv │ ├── look_up_table_8_8.csv │ └── look_up_table_old.csv └── utils.py