gitextract_rqvg5427/ ├── .github/ │ └── workflows/ │ └── python-publish.yml ├── .gitignore ├── .pre-commit-config.yaml ├── LICENSE ├── MANIFEST.in ├── README.md ├── examples/ │ ├── conversational_sft_detailed.ipynb │ ├── conversational_sft_minimal.ipynb │ ├── dpo_minimal.ipynb │ ├── example_lora.yaml │ ├── grpo_minimal.ipynb │ ├── orpo_minimal.ipynb │ ├── r1_full_pipeline.ipynb │ ├── r1_sft.ipynb │ ├── r1_zero_cold_start.ipynb │ ├── r1_zero_minimal.ipynb │ └── sft_lmstudio.ipynb ├── mlx_lm_lora/ │ ├── __init__.py │ ├── __main__.py │ ├── _version.py │ ├── py.typed │ ├── synthetic_dpo.py │ ├── synthetic_prompts.py │ ├── synthetic_sft.py │ ├── train.py │ ├── train_judge.py │ ├── trainer/ │ │ ├── __init__.py │ │ ├── cpo_trainer.py │ │ ├── datasets.py │ │ ├── dpo_trainer.py │ │ ├── grpo_reward_functions.py │ │ ├── grpo_trainer.py │ │ ├── judge.py │ │ ├── online_dpo_trainer.py │ │ ├── orpo_trainer.py │ │ ├── ppo_trainer.py │ │ ├── rlhf_reinforce_trainer.py │ │ ├── sft_trainer.py │ │ └── xpo_trainer.py │ ├── utils.py │ └── visuals.py ├── requirements.txt └── setup.py