gitextract_rqvg5427/

├── .github/
│   └── workflows/
│       └── python-publish.yml
├── .gitignore
├── .pre-commit-config.yaml
├── LICENSE
├── MANIFEST.in
├── README.md
├── examples/
│   ├── conversational_sft_detailed.ipynb
│   ├── conversational_sft_minimal.ipynb
│   ├── dpo_minimal.ipynb
│   ├── example_lora.yaml
│   ├── grpo_minimal.ipynb
│   ├── orpo_minimal.ipynb
│   ├── r1_full_pipeline.ipynb
│   ├── r1_sft.ipynb
│   ├── r1_zero_cold_start.ipynb
│   ├── r1_zero_minimal.ipynb
│   └── sft_lmstudio.ipynb
├── mlx_lm_lora/
│   ├── __init__.py
│   ├── __main__.py
│   ├── _version.py
│   ├── py.typed
│   ├── synthetic_dpo.py
│   ├── synthetic_prompts.py
│   ├── synthetic_sft.py
│   ├── train.py
│   ├── train_judge.py
│   ├── trainer/
│   │   ├── __init__.py
│   │   ├── cpo_trainer.py
│   │   ├── datasets.py
│   │   ├── dpo_trainer.py
│   │   ├── grpo_reward_functions.py
│   │   ├── grpo_trainer.py
│   │   ├── judge.py
│   │   ├── online_dpo_trainer.py
│   │   ├── orpo_trainer.py
│   │   ├── ppo_trainer.py
│   │   ├── rlhf_reinforce_trainer.py
│   │   ├── sft_trainer.py
│   │   └── xpo_trainer.py
│   ├── utils.py
│   └── visuals.py
├── requirements.txt
└── setup.py