gitextract_nqr7ihm_/ ├── .github/ │ └── FUNDING.yml ├── .gitignore ├── CITATION.cff ├── LICENSE ├── README.md ├── RWKV-8.md ├── RWKV-v1/ │ ├── src/ │ │ ├── __init__.py │ │ ├── model.py │ │ ├── trainer.py │ │ └── utils.py │ └── train.py ├── RWKV-v2-RNN/ │ ├── cuda/ │ │ ├── timex_cuda.cu │ │ └── timex_op.cpp │ ├── enwik8-vocab.json │ ├── run.py │ ├── src/ │ │ ├── model.py │ │ ├── model_run.py │ │ ├── trainer.py │ │ └── utils.py │ └── train.py ├── RWKV-v3/ │ ├── cuda/ │ │ ├── timex_cuda.cu │ │ └── timex_op.cpp │ ├── run.py │ ├── src/ │ │ ├── model.py │ │ ├── model_run.py │ │ ├── trainer.py │ │ └── utils.py │ ├── train.py │ └── verify.py ├── RWKV-v4/ │ ├── 20B_tokenizer.json │ ├── cuda/ │ │ ├── wkv_cuda.cu │ │ └── wkv_op.cpp │ ├── run.py │ ├── src/ │ │ ├── binidx.py │ │ ├── model.py │ │ ├── model_run.py │ │ ├── trainer.py │ │ └── utils.py │ ├── train.py │ └── verify.py ├── RWKV-v4neo/ │ ├── 20B_tokenizer.json │ ├── chat.py │ ├── cuda/ │ │ ├── wkv5_cuda.cu │ │ ├── wkv5_op.cpp │ │ ├── wkv_cuda.cu │ │ ├── wkv_cuda_bf16.cu │ │ ├── wkv_op.cpp │ │ └── wkv_op_bf16.cpp │ ├── img_demoAE.py │ ├── math_demo/ │ │ └── run.py │ ├── run.py │ ├── src/ │ │ ├── __init__.py │ │ ├── binidx.py │ │ ├── dataset.py │ │ ├── model.py │ │ ├── model_img.py │ │ ├── model_run.py │ │ ├── trainer.py │ │ └── utils.py │ ├── train.py │ └── verify.py ├── RWKV-v5/ │ ├── compute_magic_prime.py │ ├── cuda/ │ │ ├── wkv5_cuda.cu │ │ ├── wkv5_op.cpp │ │ ├── wkv6_cuda.cu │ │ ├── wkv6_op.cpp │ │ ├── wkv6state_cuda.cu │ │ ├── wkv6state_op.cpp │ │ ├── wkv7_cuda.cu │ │ └── wkv7_op.cpp │ ├── demo-training-prepare-v7-pile.sh │ ├── demo-training-prepare.sh │ ├── demo-training-run-v7-pile.sh │ ├── demo-training-run.sh │ ├── demo.jsonl │ ├── make_data.py │ ├── rwkv_v6_demo.py │ ├── src/ │ │ ├── __init__.py │ │ ├── binidx.py │ │ ├── dataset.py │ │ ├── model.py │ │ ├── trainer.py │ │ └── utils.py │ ├── tokenizer/ │ │ ├── __init__.py │ │ └── rwkv_tokenizer.py │ └── train.py ├── RWKV-v6/ │ └── README.md ├── RWKV-v7/ │ ├── README.md │ ├── cuda/ │ │ ├── wkv7.cu │ │ ├── wkv7_op.cpp │ │ ├── wkv7s.cu │ │ └── wkv7s_op.cpp │ ├── misc/ │ │ └── lambada_test.jsonl │ ├── mmlu_dev_dataset/ │ │ ├── data-00000-of-00001.arrow │ │ ├── dataset_info.json │ │ └── state.json │ ├── mmlu_test_dataset/ │ │ ├── data-00000-of-00001.arrow │ │ ├── dataset_info.json │ │ └── state.json │ ├── rwkv_mmlu_eval.py │ ├── rwkv_v7_demo.py │ ├── rwkv_v7_demo_fast.py │ ├── rwkv_v7_demo_rnn.py │ ├── rwkv_v7_numpy.py │ ├── rwkv_v7a_demo.py │ ├── rwkv_v7b_demo.py │ ├── rwkv_v8_rc00_demo.py │ ├── rwkv_v8_rc00_hybrid_demo.py │ └── train_temp/ │ ├── README.md │ ├── cuda/ │ │ ├── rwkv7_clampw.cpp │ │ ├── rwkv7_clampw.cu │ │ ├── wkv7_cuda.cu │ │ ├── wkv7_cuda_fp32.cu │ │ ├── wkv7_op.cpp │ │ └── wkv7_op_fp32.cpp │ ├── demo-training-prepare-v7-pile.sh │ ├── demo-training-prepare.sh │ ├── demo-training-run-v7-pile.sh │ ├── demo-training-run.sh │ ├── rwkv7_train_simplified.py │ ├── src/ │ │ ├── __init__.py │ │ ├── binidx.py │ │ ├── dataset.py │ │ ├── model.py │ │ └── trainer.py │ └── train.py ├── RWKV-v8/ │ ├── 251014_rosa_1bit_layer.py │ ├── 251014_rosa_1bit_train.py │ ├── 251014_rosa_onlyemb_train.py │ ├── 251016_rosa_1bit_run.py │ ├── 251018_rosa_4bit_run.py │ ├── 251024_rosaQKV_run.py │ ├── 251105_reverse_run.py │ ├── 260212_rosa1bitLM_L12.py │ ├── 260222_rosa4bitLM_L12.py │ ├── README.md │ └── cuda/ │ ├── wkv7_cuda.cu │ └── wkv7_op.cpp └── Research/ └── rwkv7-g0-7.2b.md