gitextract_ohr6vcnk/ ├── .github/ │ ├── dependabot.yml │ └── workflows/ │ └── tests.yml ├── .gitignore ├── LICENSE ├── Makefile ├── README.md ├── recipes/ │ ├── DeepSeek-R1-Distill-Qwen-1.5B/ │ │ └── grpo/ │ │ └── config_demo.yaml │ ├── OlympicCoder-32B/ │ │ └── sft/ │ │ └── config_v00.00.yaml │ ├── OlympicCoder-7B/ │ │ └── sft/ │ │ └── config_v00.00.yaml │ ├── OpenR1-Distill-7B/ │ │ └── sft/ │ │ └── config_distill.yaml │ ├── Qwen2.5-1.5B-Instruct/ │ │ └── grpo/ │ │ ├── config_demo.yaml │ │ ├── config_demo_code.yaml │ │ └── config_demo_code_ioi.yaml │ ├── Qwen2.5-Coder-7B-Instruct/ │ │ └── grpo/ │ │ └── config_codeforces.yaml │ ├── README.md │ ├── accelerate_configs/ │ │ ├── ddp.yaml │ │ ├── fsdp.yaml │ │ ├── zero2.yaml │ │ └── zero3.yaml │ └── dataset_filtering/ │ ├── config_demo.yaml │ ├── filter_dapo.yaml │ └── filter_python.yaml ├── scripts/ │ ├── benchmark_e2b.py │ ├── decontaminate.py │ ├── e2b_router.py │ ├── generate_reasoning.py │ ├── get_tensor_parallel_size.py │ ├── morph_router.py │ ├── pass_rate_filtering/ │ │ ├── README.md │ │ ├── compute_pass_rate.py │ │ └── launch_filtering.sh │ ├── run_benchmarks.py │ └── upload_details.py ├── setup.cfg ├── setup.py ├── slurm/ │ ├── README.md │ ├── compute_pass_rate.slurm │ ├── e2b_router.slurm │ ├── evaluate.slurm │ ├── experimental/ │ │ └── serve_r1_vllm.slurm │ ├── generate.slurm │ ├── morph_router.slurm │ ├── piston/ │ │ ├── README.md │ │ ├── launch_piston_workers.sh │ │ └── launch_single_piston.sh │ ├── serve_r1.slurm │ ├── serve_router.slurm │ └── train.slurm ├── src/ │ └── open_r1/ │ ├── __init__.py │ ├── configs.py │ ├── generate.py │ ├── grpo.py │ ├── rewards.py │ ├── sft.py │ └── utils/ │ ├── __init__.py │ ├── callbacks.py │ ├── code_providers.py │ ├── competitive_programming/ │ │ ├── __init__.py │ │ ├── cf_scoring.py │ │ ├── code_patcher.py │ │ ├── ioi_scoring.py │ │ ├── ioi_utils.py │ │ ├── morph_client.py │ │ ├── piston_client.py │ │ └── utils.py │ ├── data.py │ ├── evaluation.py │ ├── hub.py │ ├── import_utils.py │ ├── model_utils.py │ ├── routed_morph.py │ ├── routed_sandbox.py │ └── wandb_logging.py └── tests/ ├── __init__.py ├── slow/ │ └── test_code_reward.py ├── test_rewards.py └── utils/ └── test_data.py