gitextract_dp4dknxa/ ├── .gitignore ├── README.md ├── app.py ├── data_generation/ │ ├── Grounded-Segment-Anything/ │ │ ├── .gitignore │ │ ├── .gitmodules │ │ ├── CITATION.cff │ │ ├── Dockerfile │ │ ├── EfficientSAM/ │ │ │ ├── EdgeSAM/ │ │ │ │ ├── common.py │ │ │ │ ├── rep_vit.py │ │ │ │ └── setup_edge_sam.py │ │ │ ├── FastSAM/ │ │ │ │ └── tools.py │ │ │ ├── LightHQSAM/ │ │ │ │ ├── setup_light_hqsam.py │ │ │ │ └── tiny_vit_sam.py │ │ │ ├── MobileSAM/ │ │ │ │ ├── setup_mobile_sam.py │ │ │ │ └── tiny_vit_sam.py │ │ │ ├── README.md │ │ │ ├── RepViTSAM/ │ │ │ │ ├── repvit.py │ │ │ │ └── setup_repvit_sam.py │ │ │ ├── grounded_edge_sam.py │ │ │ ├── grounded_efficient_sam.py │ │ │ ├── grounded_fast_sam.py │ │ │ ├── grounded_light_hqsam.py │ │ │ ├── grounded_mobile_sam.py │ │ │ └── grounded_repvit_sam.py │ │ ├── GroundingDINO/ │ │ │ ├── LICENSE │ │ │ ├── README.md │ │ │ ├── demo/ │ │ │ │ ├── gradio_app.py │ │ │ │ └── inference_on_a_image.py │ │ │ ├── groundingdino/ │ │ │ │ ├── __init__.py │ │ │ │ ├── config/ │ │ │ │ │ ├── GroundingDINO_SwinB.py │ │ │ │ │ └── GroundingDINO_SwinT_OGC.py │ │ │ │ ├── datasets/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── transforms.py │ │ │ │ ├── models/ │ │ │ │ │ ├── GroundingDINO/ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── backbone/ │ │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ │ ├── backbone.py │ │ │ │ │ │ │ ├── position_encoding.py │ │ │ │ │ │ │ └── swin_transformer.py │ │ │ │ │ │ ├── bertwarper.py │ │ │ │ │ │ ├── csrc/ │ │ │ │ │ │ │ ├── MsDeformAttn/ │ │ │ │ │ │ │ │ ├── ms_deform_attn.h │ │ │ │ │ │ │ │ ├── ms_deform_attn_cpu.cpp │ │ │ │ │ │ │ │ ├── ms_deform_attn_cpu.h │ │ │ │ │ │ │ │ ├── ms_deform_attn_cuda.cu │ │ │ │ │ │ │ │ ├── ms_deform_attn_cuda.h │ │ │ │ │ │ │ │ └── ms_deform_im2col_cuda.cuh │ │ │ │ │ │ │ ├── cuda_version.cu │ │ │ │ │ │ │ └── vision.cpp │ │ │ │ │ │ ├── fuse_modules.py │ │ │ │ │ │ ├── groundingdino.py │ │ │ │ │ │ ├── ms_deform_attn.py │ │ │ │ │ │ ├── transformer.py │ │ │ │ │ │ ├── transformer_vanilla.py │ │ │ │ │ │ └── utils.py │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── registry.py │ │ │ │ ├── util/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── box_ops.py │ │ │ │ │ ├── get_tokenlizer.py │ │ │ │ │ ├── inference.py │ │ │ │ │ ├── logger.py │ │ │ │ │ ├── misc.py │ │ │ │ │ ├── slconfig.py │ │ │ │ │ ├── slio.py │ │ │ │ │ ├── time_counter.py │ │ │ │ │ ├── utils.py │ │ │ │ │ ├── visualizer.py │ │ │ │ │ └── vl_utils.py │ │ │ │ └── version.py │ │ │ ├── pyproject.toml │ │ │ ├── requirements.txt │ │ │ ├── setup.py │ │ │ ├── sub_8_new_83748.err │ │ │ └── submit_gpu_task_83747.err │ │ ├── LICENSE │ │ ├── Makefile │ │ ├── README.md │ │ ├── automatic_label_demo.py │ │ ├── automatic_label_ram_demo.py │ │ ├── automatic_label_simple_demo.py │ │ ├── automatic_label_tag2text_demo.py │ │ ├── chatbot.py │ │ ├── cog.yaml │ │ ├── gradio_app.py │ │ ├── grounded_sam.ipynb │ │ ├── grounded_sam_3d_box.ipynb │ │ ├── grounded_sam_colab_demo.ipynb │ │ ├── grounded_sam_demo.py │ │ ├── grounded_sam_inpainting_demo.py │ │ ├── grounded_sam_osx_demo.py │ │ ├── grounded_sam_simple_demo.py │ │ ├── grounded_sam_visam.py │ │ ├── grounded_sam_whisper_demo.py │ │ ├── grounded_sam_whisper_inpainting_demo.py │ │ ├── grounding_dino_demo.py │ │ ├── playground/ │ │ │ ├── DeepFloyd/ │ │ │ │ ├── README.md │ │ │ │ ├── dream.py │ │ │ │ ├── inpaint.py │ │ │ │ └── style_transfer.py │ │ │ ├── ImageBind_SAM/ │ │ │ │ ├── README.md │ │ │ │ ├── audio_referring_seg_demo.py │ │ │ │ ├── data.py │ │ │ │ ├── demo.py │ │ │ │ ├── image_referring_seg_demo.py │ │ │ │ ├── models/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── imagebind_model.py │ │ │ │ │ ├── multimodal_preprocessors.py │ │ │ │ │ └── transformer.py │ │ │ │ ├── text_referring_seg_demo.py │ │ │ │ └── utils.py │ │ │ ├── LaMa/ │ │ │ │ ├── README.md │ │ │ │ ├── lama_inpaint_demo.py │ │ │ │ └── sam_lama.py │ │ │ ├── PaintByExample/ │ │ │ │ ├── README.md │ │ │ │ ├── paint_by_example.py │ │ │ │ └── sam_paint_by_example.py │ │ │ ├── README.md │ │ │ └── RePaint/ │ │ │ ├── README.md │ │ │ └── repaint.py │ │ ├── predict.py │ │ ├── requirements.txt │ │ ├── segment_anything/ │ │ │ ├── .flake8 │ │ │ ├── CODE_OF_CONDUCT.md │ │ │ ├── CONTRIBUTING.md │ │ │ ├── LICENSE │ │ │ ├── README.md │ │ │ ├── linter.sh │ │ │ ├── notebooks/ │ │ │ │ ├── automatic_mask_generator_example.ipynb │ │ │ │ ├── onnx_model_example.ipynb │ │ │ │ └── predictor_example.ipynb │ │ │ ├── scripts/ │ │ │ │ ├── amg.py │ │ │ │ └── export_onnx_model.py │ │ │ ├── segment_anything/ │ │ │ │ ├── __init__.py │ │ │ │ ├── automatic_mask_generator.py │ │ │ │ ├── build_sam.py │ │ │ │ ├── build_sam_hq.py │ │ │ │ ├── modeling/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── common.py │ │ │ │ │ ├── image_encoder.py │ │ │ │ │ ├── mask_decoder.py │ │ │ │ │ ├── mask_decoder_hq.py │ │ │ │ │ ├── prompt_encoder.py │ │ │ │ │ ├── sam.py │ │ │ │ │ └── transformer.py │ │ │ │ ├── predictor.py │ │ │ │ └── utils/ │ │ │ │ ├── __init__.py │ │ │ │ ├── amg.py │ │ │ │ ├── onnx.py │ │ │ │ └── transforms.py │ │ │ ├── setup.cfg │ │ │ └── setup.py │ │ └── voxelnext_3d_box/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── config.yaml │ │ ├── model.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── data_processor.py │ │ │ ├── mean_vfe.py │ │ │ ├── spconv_backbone_voxelnext.py │ │ │ └── voxelnext_head.py │ │ ├── requirements.txt │ │ └── utils/ │ │ ├── centernet_utils.py │ │ ├── config.py │ │ └── image_projection.py │ ├── data_generation.py │ ├── ldm/ │ │ ├── data/ │ │ │ ├── __init__.py │ │ │ ├── base.py │ │ │ ├── imagenet.py │ │ │ └── lsun.py │ │ ├── lr_scheduler.py │ │ ├── models/ │ │ │ ├── autoencoder.py │ │ │ └── diffusion/ │ │ │ ├── __init__.py │ │ │ ├── classifier.py │ │ │ ├── ddim.py │ │ │ ├── ddpm.py │ │ │ ├── dpm_solver/ │ │ │ │ ├── __init__.py │ │ │ │ ├── dpm_solver.py │ │ │ │ └── sampler.py │ │ │ └── plms.py │ │ ├── modules/ │ │ │ ├── attention.py │ │ │ ├── diffusionmodules/ │ │ │ │ ├── __init__.py │ │ │ │ ├── model.py │ │ │ │ ├── openaimodel.py │ │ │ │ └── util.py │ │ │ ├── distributions/ │ │ │ │ ├── __init__.py │ │ │ │ └── distributions.py │ │ │ ├── ema.py │ │ │ ├── encoders/ │ │ │ │ ├── __init__.py │ │ │ │ └── modules.py │ │ │ ├── image_degradation/ │ │ │ │ ├── __init__.py │ │ │ │ ├── bsrgan.py │ │ │ │ ├── bsrgan_light.py │ │ │ │ └── utils_image.py │ │ │ ├── losses/ │ │ │ │ ├── __init__.py │ │ │ │ ├── contperceptual.py │ │ │ │ └── vqperceptual.py │ │ │ └── x_transformer.py │ │ └── util.py │ ├── metrics/ │ │ ├── clip_similarity.py │ │ └── compute_metrics.py │ ├── processors.py │ ├── prompt_to_prompt_pipeline.py │ ├── run_inpainting_multiiple_objects.sh │ ├── run_sdxl_turbo_p2p_i2i_8gpu.sh │ ├── sdxl_p2p_pipeline.py │ └── util.py ├── diffusers/ │ ├── .github/ │ │ ├── ISSUE_TEMPLATE/ │ │ │ ├── bug-report.yml │ │ │ ├── config.yml │ │ │ ├── feature_request.md │ │ │ ├── feedback.md │ │ │ ├── new-model-addition.yml │ │ │ └── translate.md │ │ ├── PULL_REQUEST_TEMPLATE.md │ │ ├── actions/ │ │ │ └── setup-miniconda/ │ │ │ └── action.yml │ │ └── workflows/ │ │ ├── benchmark.yml │ │ ├── build_docker_images.yml │ │ ├── build_documentation.yml │ │ ├── build_pr_documentation.yml │ │ ├── mirror_community_pipeline.yml │ │ ├── nightly_tests.yml │ │ ├── notify_slack_about_release.yml │ │ ├── pr_dependency_test.yml │ │ ├── pr_flax_dependency_test.yml │ │ ├── pr_test_fetcher.yml │ │ ├── pr_test_peft_backend.yml │ │ ├── pr_tests.yml │ │ ├── pr_torch_dependency_test.yml │ │ ├── push_tests.yml │ │ ├── push_tests_fast.yml │ │ ├── push_tests_mps.yml │ │ ├── pypi_publish.yaml │ │ ├── run_tests_from_a_pr.yml │ │ ├── ssh-runner.yml │ │ ├── stale.yml │ │ ├── trufflehog.yml │ │ ├── typos.yml │ │ ├── update_metadata.yml │ │ └── upload_pr_documentation.yml │ ├── .gitignore │ ├── CITATION.cff │ ├── CODE_OF_CONDUCT.md │ ├── CONTRIBUTING.md │ ├── LICENSE │ ├── MANIFEST.in │ ├── Makefile │ ├── PHILOSOPHY.md │ ├── README.md │ ├── _typos.toml │ ├── benchmarks/ │ │ ├── base_classes.py │ │ ├── benchmark_controlnet.py │ │ ├── benchmark_ip_adapters.py │ │ ├── benchmark_sd_img.py │ │ ├── benchmark_sd_inpainting.py │ │ ├── benchmark_t2i_adapter.py │ │ ├── benchmark_t2i_lcm_lora.py │ │ ├── benchmark_text_to_image.py │ │ ├── push_results.py │ │ ├── run_all.py │ │ └── utils.py │ ├── docker/ │ │ ├── diffusers-doc-builder/ │ │ │ └── Dockerfile │ │ ├── diffusers-flax-cpu/ │ │ │ └── Dockerfile │ │ ├── diffusers-flax-tpu/ │ │ │ └── Dockerfile │ │ ├── diffusers-onnxruntime-cpu/ │ │ │ └── Dockerfile │ │ ├── diffusers-onnxruntime-cuda/ │ │ │ └── Dockerfile │ │ ├── diffusers-pytorch-compile-cuda/ │ │ │ └── Dockerfile │ │ ├── diffusers-pytorch-cpu/ │ │ │ └── Dockerfile │ │ ├── diffusers-pytorch-cuda/ │ │ │ └── Dockerfile │ │ └── diffusers-pytorch-xformers-cuda/ │ │ └── Dockerfile │ ├── docs/ │ │ ├── README.md │ │ ├── TRANSLATING.md │ │ └── source/ │ │ ├── _config.py │ │ ├── en/ │ │ │ ├── _toctree.yml │ │ │ ├── advanced_inference/ │ │ │ │ └── outpaint.md │ │ │ ├── api/ │ │ │ │ ├── activations.md │ │ │ │ ├── attnprocessor.md │ │ │ │ ├── configuration.md │ │ │ │ ├── image_processor.md │ │ │ │ ├── internal_classes_overview.md │ │ │ │ ├── loaders/ │ │ │ │ │ ├── ip_adapter.md │ │ │ │ │ ├── lora.md │ │ │ │ │ ├── peft.md │ │ │ │ │ ├── single_file.md │ │ │ │ │ ├── textual_inversion.md │ │ │ │ │ └── unet.md │ │ │ │ ├── logging.md │ │ │ │ ├── models/ │ │ │ │ │ ├── asymmetricautoencoderkl.md │ │ │ │ │ ├── autoencoder_tiny.md │ │ │ │ │ ├── autoencoderkl.md │ │ │ │ │ ├── consistency_decoder_vae.md │ │ │ │ │ ├── controlnet.md │ │ │ │ │ ├── dit_transformer2d.md │ │ │ │ │ ├── hunyuan_transformer2d.md │ │ │ │ │ ├── overview.md │ │ │ │ │ ├── pixart_transformer2d.md │ │ │ │ │ ├── prior_transformer.md │ │ │ │ │ ├── sd3_transformer2d.md │ │ │ │ │ ├── transformer2d.md │ │ │ │ │ ├── transformer_temporal.md │ │ │ │ │ ├── unet-motion.md │ │ │ │ │ ├── unet.md │ │ │ │ │ ├── unet2d-cond.md │ │ │ │ │ ├── unet2d.md │ │ │ │ │ ├── unet3d-cond.md │ │ │ │ │ ├── uvit2d.md │ │ │ │ │ └── vq.md │ │ │ │ ├── normalization.md │ │ │ │ ├── outputs.md │ │ │ │ ├── pipelines/ │ │ │ │ │ ├── amused.md │ │ │ │ │ ├── animatediff.md │ │ │ │ │ ├── attend_and_excite.md │ │ │ │ │ ├── audioldm.md │ │ │ │ │ ├── audioldm2.md │ │ │ │ │ ├── auto_pipeline.md │ │ │ │ │ ├── blip_diffusion.md │ │ │ │ │ ├── consistency_models.md │ │ │ │ │ ├── controlnet.md │ │ │ │ │ ├── controlnet_sdxl.md │ │ │ │ │ ├── controlnetxs.md │ │ │ │ │ ├── controlnetxs_sdxl.md │ │ │ │ │ ├── dance_diffusion.md │ │ │ │ │ ├── ddim.md │ │ │ │ │ ├── ddpm.md │ │ │ │ │ ├── deepfloyd_if.md │ │ │ │ │ ├── diffedit.md │ │ │ │ │ ├── dit.md │ │ │ │ │ ├── hunyuandit.md │ │ │ │ │ ├── i2vgenxl.md │ │ │ │ │ ├── kandinsky.md │ │ │ │ │ ├── kandinsky3.md │ │ │ │ │ ├── kandinsky_v22.md │ │ │ │ │ ├── latent_consistency_models.md │ │ │ │ │ ├── latent_diffusion.md │ │ │ │ │ ├── ledits_pp.md │ │ │ │ │ ├── marigold.md │ │ │ │ │ ├── musicldm.md │ │ │ │ │ ├── overview.md │ │ │ │ │ ├── paint_by_example.md │ │ │ │ │ ├── panorama.md │ │ │ │ │ ├── pia.md │ │ │ │ │ ├── pix2pix.md │ │ │ │ │ ├── pixart.md │ │ │ │ │ ├── pixart_sigma.md │ │ │ │ │ ├── self_attention_guidance.md │ │ │ │ │ ├── semantic_stable_diffusion.md │ │ │ │ │ ├── shap_e.md │ │ │ │ │ ├── stable_cascade.md │ │ │ │ │ ├── stable_diffusion/ │ │ │ │ │ │ ├── adapter.md │ │ │ │ │ │ ├── depth2img.md │ │ │ │ │ │ ├── gligen.md │ │ │ │ │ │ ├── image_variation.md │ │ │ │ │ │ ├── img2img.md │ │ │ │ │ │ ├── inpaint.md │ │ │ │ │ │ ├── k_diffusion.md │ │ │ │ │ │ ├── latent_upscale.md │ │ │ │ │ │ ├── ldm3d_diffusion.md │ │ │ │ │ │ ├── overview.md │ │ │ │ │ │ ├── sdxl_turbo.md │ │ │ │ │ │ ├── stable_diffusion_2.md │ │ │ │ │ │ ├── stable_diffusion_3.md │ │ │ │ │ │ ├── stable_diffusion_safe.md │ │ │ │ │ │ ├── stable_diffusion_xl.md │ │ │ │ │ │ ├── svd.md │ │ │ │ │ │ ├── text2img.md │ │ │ │ │ │ └── upscale.md │ │ │ │ │ ├── stable_unclip.md │ │ │ │ │ ├── text_to_video.md │ │ │ │ │ ├── text_to_video_zero.md │ │ │ │ │ ├── unclip.md │ │ │ │ │ ├── unidiffuser.md │ │ │ │ │ ├── value_guided_sampling.md │ │ │ │ │ └── wuerstchen.md │ │ │ │ ├── schedulers/ │ │ │ │ │ ├── cm_stochastic_iterative.md │ │ │ │ │ ├── consistency_decoder.md │ │ │ │ │ ├── ddim.md │ │ │ │ │ ├── ddim_inverse.md │ │ │ │ │ ├── ddpm.md │ │ │ │ │ ├── deis.md │ │ │ │ │ ├── dpm_discrete.md │ │ │ │ │ ├── dpm_discrete_ancestral.md │ │ │ │ │ ├── dpm_sde.md │ │ │ │ │ ├── edm_euler.md │ │ │ │ │ ├── edm_multistep_dpm_solver.md │ │ │ │ │ ├── euler.md │ │ │ │ │ ├── euler_ancestral.md │ │ │ │ │ ├── flow_match_euler_discrete.md │ │ │ │ │ ├── heun.md │ │ │ │ │ ├── ipndm.md │ │ │ │ │ ├── lcm.md │ │ │ │ │ ├── lms_discrete.md │ │ │ │ │ ├── multistep_dpm_solver.md │ │ │ │ │ ├── multistep_dpm_solver_inverse.md │ │ │ │ │ ├── overview.md │ │ │ │ │ ├── pndm.md │ │ │ │ │ ├── repaint.md │ │ │ │ │ ├── score_sde_ve.md │ │ │ │ │ ├── score_sde_vp.md │ │ │ │ │ ├── singlestep_dpm_solver.md │ │ │ │ │ ├── stochastic_karras_ve.md │ │ │ │ │ ├── tcd.md │ │ │ │ │ ├── unipc.md │ │ │ │ │ └── vq_diffusion.md │ │ │ │ ├── utilities.md │ │ │ │ └── video_processor.md │ │ │ ├── conceptual/ │ │ │ │ ├── contribution.md │ │ │ │ ├── ethical_guidelines.md │ │ │ │ ├── evaluation.md │ │ │ │ └── philosophy.md │ │ │ ├── index.md │ │ │ ├── installation.md │ │ │ ├── optimization/ │ │ │ │ ├── coreml.md │ │ │ │ ├── deepcache.md │ │ │ │ ├── fp16.md │ │ │ │ ├── habana.md │ │ │ │ ├── memory.md │ │ │ │ ├── mps.md │ │ │ │ ├── onnx.md │ │ │ │ ├── open_vino.md │ │ │ │ ├── tgate.md │ │ │ │ ├── tome.md │ │ │ │ ├── torch2.0.md │ │ │ │ └── xformers.md │ │ │ ├── quicktour.md │ │ │ ├── stable_diffusion.md │ │ │ ├── training/ │ │ │ │ ├── adapt_a_model.md │ │ │ │ ├── controlnet.md │ │ │ │ ├── create_dataset.md │ │ │ │ ├── custom_diffusion.md │ │ │ │ ├── ddpo.md │ │ │ │ ├── distributed_inference.md │ │ │ │ ├── dreambooth.md │ │ │ │ ├── instructpix2pix.md │ │ │ │ ├── kandinsky.md │ │ │ │ ├── lcm_distill.md │ │ │ │ ├── lora.md │ │ │ │ ├── overview.md │ │ │ │ ├── sdxl.md │ │ │ │ ├── t2i_adapters.md │ │ │ │ ├── text2image.md │ │ │ │ ├── text_inversion.md │ │ │ │ ├── unconditional_training.md │ │ │ │ └── wuerstchen.md │ │ │ ├── tutorials/ │ │ │ │ ├── autopipeline.md │ │ │ │ ├── basic_training.md │ │ │ │ ├── fast_diffusion.md │ │ │ │ ├── tutorial_overview.md │ │ │ │ └── using_peft_for_inference.md │ │ │ └── using-diffusers/ │ │ │ ├── callback.md │ │ │ ├── conditional_image_generation.md │ │ │ ├── controlling_generation.md │ │ │ ├── controlnet.md │ │ │ ├── custom_pipeline_overview.md │ │ │ ├── depth2img.md │ │ │ ├── diffedit.md │ │ │ ├── image_quality.md │ │ │ ├── img2img.md │ │ │ ├── inference_with_lcm.md │ │ │ ├── inference_with_tcd_lora.md │ │ │ ├── inpaint.md │ │ │ ├── ip_adapter.md │ │ │ ├── kandinsky.md │ │ │ ├── loading.md │ │ │ ├── loading_adapters.md │ │ │ ├── marigold_usage.md │ │ │ ├── merge_loras.md │ │ │ ├── other-formats.md │ │ │ ├── overview_techniques.md │ │ │ ├── push_to_hub.md │ │ │ ├── reusing_seeds.md │ │ │ ├── scheduler_features.md │ │ │ ├── schedulers.md │ │ │ ├── sdxl.md │ │ │ ├── sdxl_turbo.md │ │ │ ├── shap-e.md │ │ │ ├── stable_diffusion_jax_how_to.md │ │ │ ├── svd.md │ │ │ ├── t2i_adapter.md │ │ │ ├── text-img2vid.md │ │ │ ├── textual_inversion_inference.md │ │ │ ├── unconditional_image_generation.md │ │ │ ├── weighted_prompts.md │ │ │ └── write_own_pipeline.md │ │ ├── ja/ │ │ │ ├── _toctree.yml │ │ │ ├── index.md │ │ │ ├── installation.md │ │ │ ├── quicktour.md │ │ │ ├── stable_diffusion.md │ │ │ └── tutorials/ │ │ │ ├── autopipeline.md │ │ │ └── tutorial_overview.md │ │ ├── ko/ │ │ │ ├── _toctree.yml │ │ │ ├── api/ │ │ │ │ └── pipelines/ │ │ │ │ └── stable_diffusion/ │ │ │ │ └── stable_diffusion_xl.md │ │ │ ├── conceptual/ │ │ │ │ ├── contribution.md │ │ │ │ ├── ethical_guidelines.md │ │ │ │ ├── evaluation.md │ │ │ │ └── philosophy.md │ │ │ ├── in_translation.md │ │ │ ├── index.md │ │ │ ├── installation.md │ │ │ ├── optimization/ │ │ │ │ ├── coreml.md │ │ │ │ ├── fp16.md │ │ │ │ ├── habana.md │ │ │ │ ├── mps.md │ │ │ │ ├── onnx.md │ │ │ │ ├── open_vino.md │ │ │ │ ├── opt_overview.md │ │ │ │ ├── tome.md │ │ │ │ ├── torch2.0.md │ │ │ │ └── xformers.md │ │ │ ├── quicktour.md │ │ │ ├── stable_diffusion.md │ │ │ ├── training/ │ │ │ │ ├── adapt_a_model.md │ │ │ │ ├── controlnet.md │ │ │ │ ├── create_dataset.md │ │ │ │ ├── custom_diffusion.md │ │ │ │ ├── distributed_inference.md │ │ │ │ ├── dreambooth.md │ │ │ │ ├── instructpix2pix.md │ │ │ │ ├── lora.md │ │ │ │ ├── overview.md │ │ │ │ ├── text2image.md │ │ │ │ ├── text_inversion.md │ │ │ │ └── unconditional_training.md │ │ │ ├── tutorials/ │ │ │ │ ├── basic_training.md │ │ │ │ └── tutorial_overview.md │ │ │ └── using-diffusers/ │ │ │ ├── conditional_image_generation.md │ │ │ ├── contribute_pipeline.md │ │ │ ├── control_brightness.md │ │ │ ├── controlling_generation.md │ │ │ ├── custom_pipeline_examples.md │ │ │ ├── custom_pipeline_overview.md │ │ │ ├── depth2img.md │ │ │ ├── img2img.md │ │ │ ├── inpaint.md │ │ │ ├── loading.md │ │ │ ├── loading_overview.md │ │ │ ├── other-formats.md │ │ │ ├── pipeline_overview.md │ │ │ ├── reproducibility.md │ │ │ ├── reusing_seeds.md │ │ │ ├── schedulers.md │ │ │ ├── stable_diffusion_jax_how_to.md │ │ │ ├── textual_inversion_inference.md │ │ │ ├── unconditional_image_generation.md │ │ │ ├── using_safetensors.md │ │ │ ├── weighted_prompts.md │ │ │ └── write_own_pipeline.md │ │ ├── pt/ │ │ │ ├── _toctree.yml │ │ │ ├── index.md │ │ │ ├── installation.md │ │ │ └── quicktour.md │ │ └── zh/ │ │ ├── _toctree.yml │ │ ├── index.md │ │ ├── installation.md │ │ ├── quicktour.md │ │ └── stable_diffusion.md │ ├── examples/ │ │ ├── README.md │ │ ├── advanced_diffusion_training/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── train_dreambooth_lora_sd15_advanced.py │ │ │ └── train_dreambooth_lora_sdxl_advanced.py │ │ ├── amused/ │ │ │ ├── README.md │ │ │ └── train_amused.py │ │ ├── community/ │ │ │ ├── README.md │ │ │ ├── README_community_scripts.md │ │ │ ├── bit_diffusion.py │ │ │ ├── checkpoint_merger.py │ │ │ ├── clip_guided_images_mixing_stable_diffusion.py │ │ │ ├── clip_guided_stable_diffusion.py │ │ │ ├── clip_guided_stable_diffusion_img2img.py │ │ │ ├── composable_stable_diffusion.py │ │ │ ├── ddim_noise_comparative_analysis.py │ │ │ ├── dps_pipeline.py │ │ │ ├── edict_pipeline.py │ │ │ ├── fresco_v2v.py │ │ │ ├── gluegen.py │ │ │ ├── hd_painter.py │ │ │ ├── iadb.py │ │ │ ├── imagic_stable_diffusion.py │ │ │ ├── img2img_inpainting.py │ │ │ ├── instaflow_one_step.py │ │ │ ├── interpolate_stable_diffusion.py │ │ │ ├── ip_adapter_face_id.py │ │ │ ├── kohya_hires_fix.py │ │ │ ├── latent_consistency_img2img.py │ │ │ ├── latent_consistency_interpolate.py │ │ │ ├── latent_consistency_txt2img.py │ │ │ ├── llm_grounded_diffusion.py │ │ │ ├── lpw_stable_diffusion.py │ │ │ ├── lpw_stable_diffusion_onnx.py │ │ │ ├── lpw_stable_diffusion_xl.py │ │ │ ├── magic_mix.py │ │ │ ├── marigold_depth_estimation.py │ │ │ ├── masked_stable_diffusion_img2img.py │ │ │ ├── mixture_canvas.py │ │ │ ├── mixture_tiling.py │ │ │ ├── multilingual_stable_diffusion.py │ │ │ ├── one_step_unet.py │ │ │ ├── pipeline_animatediff_controlnet.py │ │ │ ├── pipeline_animatediff_img2video.py │ │ │ ├── pipeline_demofusion_sdxl.py │ │ │ ├── pipeline_fabric.py │ │ │ ├── pipeline_null_text_inversion.py │ │ │ ├── pipeline_prompt2prompt.py │ │ │ ├── pipeline_sdxl_style_aligned.py │ │ │ ├── pipeline_stable_diffusion_boxdiff.py │ │ │ ├── pipeline_stable_diffusion_pag.py │ │ │ ├── pipeline_stable_diffusion_upscale_ldm3d.py │ │ │ ├── pipeline_stable_diffusion_xl_controlnet_adapter.py │ │ │ ├── pipeline_stable_diffusion_xl_controlnet_adapter_inpaint.py │ │ │ ├── pipeline_stable_diffusion_xl_differential_img2img.py │ │ │ ├── pipeline_stable_diffusion_xl_instandid_img2img.py │ │ │ ├── pipeline_stable_diffusion_xl_instantid.py │ │ │ ├── pipeline_stable_diffusion_xl_ipex.py │ │ │ ├── pipeline_zero1to3.py │ │ │ ├── regional_prompting_stable_diffusion.py │ │ │ ├── rerender_a_video.py │ │ │ ├── run_onnx_controlnet.py │ │ │ ├── run_tensorrt_controlnet.py │ │ │ ├── scheduling_ufogen.py │ │ │ ├── sd_text2img_k_diffusion.py │ │ │ ├── sde_drag.py │ │ │ ├── seed_resize_stable_diffusion.py │ │ │ ├── speech_to_image_diffusion.py │ │ │ ├── stable_diffusion_comparison.py │ │ │ ├── stable_diffusion_controlnet_img2img.py │ │ │ ├── stable_diffusion_controlnet_inpaint.py │ │ │ ├── stable_diffusion_controlnet_inpaint_img2img.py │ │ │ ├── stable_diffusion_controlnet_reference.py │ │ │ ├── stable_diffusion_ipex.py │ │ │ ├── stable_diffusion_mega.py │ │ │ ├── stable_diffusion_reference.py │ │ │ ├── stable_diffusion_repaint.py │ │ │ ├── stable_diffusion_tensorrt_img2img.py │ │ │ ├── stable_diffusion_tensorrt_inpaint.py │ │ │ ├── stable_diffusion_tensorrt_txt2img.py │ │ │ ├── stable_diffusion_xl_reference.py │ │ │ ├── stable_unclip.py │ │ │ ├── text_inpainting.py │ │ │ ├── tiled_upscaling.py │ │ │ ├── unclip_image_interpolation.py │ │ │ ├── unclip_text_interpolation.py │ │ │ └── wildcard_stable_diffusion.py │ │ ├── conftest.py │ │ ├── consistency_distillation/ │ │ │ ├── README.md │ │ │ ├── README_sdxl.md │ │ │ ├── requirements.txt │ │ │ ├── test_lcm_lora.py │ │ │ ├── train_lcm_distill_lora_sd_wds.py │ │ │ ├── train_lcm_distill_lora_sdxl.py │ │ │ ├── train_lcm_distill_lora_sdxl_wds.py │ │ │ ├── train_lcm_distill_sd_wds.py │ │ │ └── train_lcm_distill_sdxl_wds.py │ │ ├── controlnet/ │ │ │ ├── README.md │ │ │ ├── README_sdxl.md │ │ │ ├── requirements.txt │ │ │ ├── requirements_flax.txt │ │ │ ├── requirements_sdxl.txt │ │ │ ├── test_controlnet.py │ │ │ ├── train_controlnet.py │ │ │ ├── train_controlnet_flax.py │ │ │ └── train_controlnet_sdxl.py │ │ ├── custom_diffusion/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── retrieve.py │ │ │ ├── test_custom_diffusion.py │ │ │ └── train_custom_diffusion.py │ │ ├── dreambooth/ │ │ │ ├── README.md │ │ │ ├── README_sd3.md │ │ │ ├── README_sdxl.md │ │ │ ├── requirements.txt │ │ │ ├── requirements_flax.txt │ │ │ ├── requirements_sd3.txt │ │ │ ├── requirements_sdxl.txt │ │ │ ├── test_dreambooth.py │ │ │ ├── test_dreambooth_lora.py │ │ │ ├── test_dreambooth_lora_edm.py │ │ │ ├── train_dreambooth.py │ │ │ ├── train_dreambooth_flax.py │ │ │ ├── train_dreambooth_lora.py │ │ │ ├── train_dreambooth_lora_sd3.py │ │ │ ├── train_dreambooth_lora_sdxl.py │ │ │ └── train_dreambooth_sd3.py │ │ ├── inference/ │ │ │ ├── README.md │ │ │ ├── image_to_image.py │ │ │ └── inpainting.py │ │ ├── instruct_pix2pix/ │ │ │ ├── README.md │ │ │ ├── README_sdxl.md │ │ │ ├── requirements.txt │ │ │ ├── test_instruct_pix2pix.py │ │ │ ├── train_instruct_pix2pix.py │ │ │ └── train_instruct_pix2pix_sdxl.py │ │ ├── kandinsky2_2/ │ │ │ └── text_to_image/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── train_text_to_image_decoder.py │ │ │ ├── train_text_to_image_lora_decoder.py │ │ │ ├── train_text_to_image_lora_prior.py │ │ │ └── train_text_to_image_prior.py │ │ ├── reinforcement_learning/ │ │ │ ├── README.md │ │ │ └── run_diffuser_locomotion.py │ │ ├── research_projects/ │ │ │ ├── README.md │ │ │ ├── colossalai/ │ │ │ │ ├── README.md │ │ │ │ ├── inference.py │ │ │ │ ├── requirement.txt │ │ │ │ └── train_dreambooth_colossalai.py │ │ │ ├── consistency_training/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ └── train_cm_ct_unconditional.py │ │ │ ├── controlnet/ │ │ │ │ └── train_controlnet_webdataset.py │ │ │ ├── diffusion_dpo/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ ├── train_diffusion_dpo.py │ │ │ │ └── train_diffusion_dpo_sdxl.py │ │ │ ├── diffusion_orpo/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ ├── train_diffusion_orpo_sdxl_lora.py │ │ │ │ └── train_diffusion_orpo_sdxl_lora_wds.py │ │ │ ├── dreambooth_inpaint/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ ├── train_dreambooth_inpaint.py │ │ │ │ └── train_dreambooth_inpaint_lora.py │ │ │ ├── geodiff/ │ │ │ │ ├── README.md │ │ │ │ └── geodiff_molecule_conformation.ipynb │ │ │ ├── gligen/ │ │ │ │ ├── README.md │ │ │ │ ├── dataset.py │ │ │ │ ├── demo.ipynb │ │ │ │ ├── make_datasets.py │ │ │ │ ├── requirements.txt │ │ │ │ └── train_gligen_text.py │ │ │ ├── instructpix2pix_lora/ │ │ │ │ ├── README.md │ │ │ │ └── train_instruct_pix2pix_lora.py │ │ │ ├── intel_opts/ │ │ │ │ ├── README.md │ │ │ │ ├── inference_bf16.py │ │ │ │ ├── textual_inversion/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── requirements.txt │ │ │ │ │ └── textual_inversion_bf16.py │ │ │ │ └── textual_inversion_dfq/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ ├── text2images.py │ │ │ │ └── textual_inversion.py │ │ │ ├── lora/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ └── train_text_to_image_lora.py │ │ │ ├── multi_subject_dreambooth/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ └── train_multi_subject_dreambooth.py │ │ │ ├── multi_subject_dreambooth_inpainting/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ └── train_multi_subject_dreambooth_inpainting.py │ │ │ ├── multi_token_textual_inversion/ │ │ │ │ ├── README.md │ │ │ │ ├── multi_token_clip.py │ │ │ │ ├── requirements.txt │ │ │ │ ├── requirements_flax.txt │ │ │ │ ├── textual_inversion.py │ │ │ │ └── textual_inversion_flax.py │ │ │ ├── onnxruntime/ │ │ │ │ ├── README.md │ │ │ │ ├── text_to_image/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── requirements.txt │ │ │ │ │ └── train_text_to_image.py │ │ │ │ ├── textual_inversion/ │ │ │ │ │ ├── README.md │ │ │ │ │ ├── requirements.txt │ │ │ │ │ └── textual_inversion.py │ │ │ │ └── unconditional_image_generation/ │ │ │ │ ├── README.md │ │ │ │ ├── requirements.txt │ │ │ │ └── train_unconditional.py │ │ │ ├── promptdiffusion/ │ │ │ │ ├── README.md │ │ │ │ ├── convert_original_promptdiffusion_to_diffusers.py │ │ │ │ ├── pipeline_prompt_diffusion.py │ │ │ │ └── promptdiffusioncontrolnet.py │ │ │ ├── rdm/ │ │ │ │ ├── README.md │ │ │ │ ├── pipeline_rdm.py │ │ │ │ └── retriever.py │ │ │ ├── realfill/ │ │ │ │ ├── README.md │ │ │ │ ├── infer.py │ │ │ │ ├── requirements.txt │ │ │ │ └── train_realfill.py │ │ │ ├── scheduled_huber_loss_training/ │ │ │ │ ├── README.md │ │ │ │ ├── dreambooth/ │ │ │ │ │ ├── train_dreambooth.py │ │ │ │ │ ├── train_dreambooth_lora.py │ │ │ │ │ └── train_dreambooth_lora_sdxl.py │ │ │ │ └── text_to_image/ │ │ │ │ ├── train_text_to_image.py │ │ │ │ ├── train_text_to_image_lora.py │ │ │ │ ├── train_text_to_image_lora_sdxl.py │ │ │ │ └── train_text_to_image_sdxl.py │ │ │ └── sdxl_flax/ │ │ │ ├── README.md │ │ │ ├── sdxl_single.py │ │ │ └── sdxl_single_aot.py │ │ ├── t2i_adapter/ │ │ │ ├── README.md │ │ │ ├── README_sdxl.md │ │ │ ├── requirements.txt │ │ │ ├── test_t2i_adapter.py │ │ │ └── train_t2i_adapter_sdxl.py │ │ ├── test_examples_utils.py │ │ ├── text_to_image/ │ │ │ ├── README.md │ │ │ ├── README_sdxl.md │ │ │ ├── requirements.txt │ │ │ ├── requirements_flax.txt │ │ │ ├── requirements_sdxl.txt │ │ │ ├── test_text_to_image.py │ │ │ ├── test_text_to_image_lora.py │ │ │ ├── train_text_to_image.py │ │ │ ├── train_text_to_image_flax.py │ │ │ ├── train_text_to_image_lora.py │ │ │ ├── train_text_to_image_lora_sdxl.py │ │ │ └── train_text_to_image_sdxl.py │ │ ├── textual_inversion/ │ │ │ ├── README.md │ │ │ ├── README_sdxl.md │ │ │ ├── requirements.txt │ │ │ ├── requirements_flax.txt │ │ │ ├── test_textual_inversion.py │ │ │ ├── test_textual_inversion_sdxl.py │ │ │ ├── textual_inversion.py │ │ │ ├── textual_inversion_flax.py │ │ │ └── textual_inversion_sdxl.py │ │ ├── unconditional_image_generation/ │ │ │ ├── README.md │ │ │ ├── requirements.txt │ │ │ ├── test_unconditional.py │ │ │ └── train_unconditional.py │ │ ├── vqgan/ │ │ │ ├── README.md │ │ │ ├── discriminator.py │ │ │ ├── requirements.txt │ │ │ ├── test_vqgan.py │ │ │ └── train_vqgan.py │ │ └── wuerstchen/ │ │ └── text_to_image/ │ │ ├── README.md │ │ ├── __init__.py │ │ ├── modeling_efficient_net_encoder.py │ │ ├── requirements.txt │ │ ├── train_text_to_image_lora_prior.py │ │ └── train_text_to_image_prior.py │ ├── pyproject.toml │ ├── scripts/ │ │ ├── __init__.py │ │ ├── change_naming_configs_and_checkpoints.py │ │ ├── conversion_ldm_uncond.py │ │ ├── convert_amused.py │ │ ├── convert_animatediff_motion_lora_to_diffusers.py │ │ ├── convert_animatediff_motion_module_to_diffusers.py │ │ ├── convert_asymmetric_vqgan_to_diffusers.py │ │ ├── convert_blipdiffusion_to_diffusers.py │ │ ├── convert_consistency_decoder.py │ │ ├── convert_consistency_to_diffusers.py │ │ ├── convert_dance_diffusion_to_diffusers.py │ │ ├── convert_ddpm_original_checkpoint_to_diffusers.py │ │ ├── convert_diffusers_sdxl_lora_to_webui.py │ │ ├── convert_diffusers_to_original_sdxl.py │ │ ├── convert_diffusers_to_original_stable_diffusion.py │ │ ├── convert_dit_to_diffusers.py │ │ ├── convert_gligen_to_diffusers.py │ │ ├── convert_i2vgen_to_diffusers.py │ │ ├── convert_if.py │ │ ├── convert_k_upscaler_to_diffusers.py │ │ ├── convert_kakao_brain_unclip_to_diffusers.py │ │ ├── convert_kandinsky3_unet.py │ │ ├── convert_kandinsky_to_diffusers.py │ │ ├── convert_ldm_original_checkpoint_to_diffusers.py │ │ ├── convert_lora_safetensor_to_diffusers.py │ │ ├── convert_models_diffuser_to_diffusers.py │ │ ├── convert_ms_text_to_video_to_diffusers.py │ │ ├── convert_music_spectrogram_to_diffusers.py │ │ ├── convert_ncsnpp_original_checkpoint_to_diffusers.py │ │ ├── convert_original_audioldm2_to_diffusers.py │ │ ├── convert_original_audioldm_to_diffusers.py │ │ ├── convert_original_controlnet_to_diffusers.py │ │ ├── convert_original_musicldm_to_diffusers.py │ │ ├── convert_original_stable_diffusion_to_diffusers.py │ │ ├── convert_original_t2i_adapter.py │ │ ├── convert_pixart_alpha_to_diffusers.py │ │ ├── convert_pixart_sigma_to_diffusers.py │ │ ├── convert_shap_e_to_diffusers.py │ │ ├── convert_stable_cascade.py │ │ ├── convert_stable_cascade_lite.py │ │ ├── convert_stable_diffusion_checkpoint_to_onnx.py │ │ ├── convert_stable_diffusion_controlnet_to_onnx.py │ │ ├── convert_stable_diffusion_controlnet_to_tensorrt.py │ │ ├── convert_svd_to_diffusers.py │ │ ├── convert_tiny_autoencoder_to_diffusers.py │ │ ├── convert_unclip_txt2img_to_image_variation.py │ │ ├── convert_unidiffuser_to_diffusers.py │ │ ├── convert_vae_diff_to_onnx.py │ │ ├── convert_vae_pt_to_diffusers.py │ │ ├── convert_versatile_diffusion_to_diffusers.py │ │ ├── convert_vq_diffusion_to_diffusers.py │ │ ├── convert_wuerstchen.py │ │ ├── convert_zero123_to_diffusers.py │ │ ├── generate_logits.py │ │ └── log_reports.py │ ├── setup.py │ ├── src/ │ │ └── diffusers/ │ │ ├── __init__.py │ │ ├── callbacks.py │ │ ├── commands/ │ │ │ ├── __init__.py │ │ │ ├── diffusers_cli.py │ │ │ ├── env.py │ │ │ └── fp16_safetensors.py │ │ ├── configuration_utils.py │ │ ├── dependency_versions_check.py │ │ ├── dependency_versions_table.py │ │ ├── experimental/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ └── rl/ │ │ │ ├── __init__.py │ │ │ └── value_guided_sampling.py │ │ ├── image_processor.py │ │ ├── loaders/ │ │ │ ├── __init__.py │ │ │ ├── autoencoder.py │ │ │ ├── controlnet.py │ │ │ ├── ip_adapter.py │ │ │ ├── lora.py │ │ │ ├── lora_conversion_utils.py │ │ │ ├── peft.py │ │ │ ├── single_file.py │ │ │ ├── single_file_model.py │ │ │ ├── single_file_utils.py │ │ │ ├── textual_inversion.py │ │ │ ├── unet.py │ │ │ ├── unet_loader_utils.py │ │ │ └── utils.py │ │ ├── models/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── activations.py │ │ │ ├── adapter.py │ │ │ ├── attention.py │ │ │ ├── attention_flax.py │ │ │ ├── attention_processor.py │ │ │ ├── autoencoders/ │ │ │ │ ├── __init__.py │ │ │ │ ├── autoencoder_asym_kl.py │ │ │ │ ├── autoencoder_kl.py │ │ │ │ ├── autoencoder_kl_temporal_decoder.py │ │ │ │ ├── autoencoder_tiny.py │ │ │ │ ├── consistency_decoder_vae.py │ │ │ │ ├── vae.py │ │ │ │ └── vq_model.py │ │ │ ├── controlnet.py │ │ │ ├── controlnet_flax.py │ │ │ ├── controlnet_xs.py │ │ │ ├── downsampling.py │ │ │ ├── embeddings.py │ │ │ ├── embeddings_flax.py │ │ │ ├── lora.py │ │ │ ├── model_loading_utils.py │ │ │ ├── modeling_flax_pytorch_utils.py │ │ │ ├── modeling_flax_utils.py │ │ │ ├── modeling_outputs.py │ │ │ ├── modeling_pytorch_flax_utils.py │ │ │ ├── modeling_utils.py │ │ │ ├── normalization.py │ │ │ ├── resnet.py │ │ │ ├── resnet_flax.py │ │ │ ├── transformers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── dit_transformer_2d.py │ │ │ │ ├── dual_transformer_2d.py │ │ │ │ ├── hunyuan_transformer_2d.py │ │ │ │ ├── pixart_transformer_2d.py │ │ │ │ ├── prior_transformer.py │ │ │ │ ├── t5_film_transformer.py │ │ │ │ ├── transformer_2d.py │ │ │ │ ├── transformer_sd3.py │ │ │ │ └── transformer_temporal.py │ │ │ ├── unets/ │ │ │ │ ├── __init__.py │ │ │ │ ├── unet_1d.py │ │ │ │ ├── unet_1d_blocks.py │ │ │ │ ├── unet_2d.py │ │ │ │ ├── unet_2d_blocks.py │ │ │ │ ├── unet_2d_blocks_flax.py │ │ │ │ ├── unet_2d_condition.py │ │ │ │ ├── unet_2d_condition_flax.py │ │ │ │ ├── unet_3d_blocks.py │ │ │ │ ├── unet_3d_condition.py │ │ │ │ ├── unet_i2vgen_xl.py │ │ │ │ ├── unet_kandinsky3.py │ │ │ │ ├── unet_motion_model.py │ │ │ │ ├── unet_spatio_temporal_condition.py │ │ │ │ ├── unet_stable_cascade.py │ │ │ │ └── uvit_2d.py │ │ │ ├── upsampling.py │ │ │ ├── vae_flax.py │ │ │ └── vq_model.py │ │ ├── optimization.py │ │ ├── pipelines/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── amused/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_amused.py │ │ │ │ ├── pipeline_amused_img2img.py │ │ │ │ └── pipeline_amused_inpaint.py │ │ │ ├── animatediff/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_animatediff.py │ │ │ │ ├── pipeline_animatediff_sdxl.py │ │ │ │ ├── pipeline_animatediff_video2video.py │ │ │ │ └── pipeline_output.py │ │ │ ├── audioldm/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_audioldm.py │ │ │ ├── audioldm2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── modeling_audioldm2.py │ │ │ │ └── pipeline_audioldm2.py │ │ │ ├── auto_pipeline.py │ │ │ ├── blip_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ ├── blip_image_processing.py │ │ │ │ ├── modeling_blip2.py │ │ │ │ ├── modeling_ctx_clip.py │ │ │ │ └── pipeline_blip_diffusion.py │ │ │ ├── consistency_models/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_consistency_models.py │ │ │ ├── controlnet/ │ │ │ │ ├── __init__.py │ │ │ │ ├── multicontrolnet.py │ │ │ │ ├── pipeline_controlnet.py │ │ │ │ ├── pipeline_controlnet_blip_diffusion.py │ │ │ │ ├── pipeline_controlnet_img2img.py │ │ │ │ ├── pipeline_controlnet_inpaint.py │ │ │ │ ├── pipeline_controlnet_inpaint_sd_xl.py │ │ │ │ ├── pipeline_controlnet_sd_xl.py │ │ │ │ ├── pipeline_controlnet_sd_xl_img2img.py │ │ │ │ └── pipeline_flax_controlnet.py │ │ │ ├── controlnet_xs/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_controlnet_xs.py │ │ │ │ └── pipeline_controlnet_xs_sd_xl.py │ │ │ ├── dance_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_dance_diffusion.py │ │ │ ├── ddim/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_ddim.py │ │ │ ├── ddpm/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_ddpm.py │ │ │ ├── deepfloyd_if/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_if.py │ │ │ │ ├── pipeline_if_img2img.py │ │ │ │ ├── pipeline_if_img2img_superresolution.py │ │ │ │ ├── pipeline_if_inpainting.py │ │ │ │ ├── pipeline_if_inpainting_superresolution.py │ │ │ │ ├── pipeline_if_superresolution.py │ │ │ │ ├── pipeline_output.py │ │ │ │ ├── safety_checker.py │ │ │ │ ├── timesteps.py │ │ │ │ └── watermark.py │ │ │ ├── deprecated/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── alt_diffusion/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── modeling_roberta_series.py │ │ │ │ │ ├── pipeline_alt_diffusion.py │ │ │ │ │ ├── pipeline_alt_diffusion_img2img.py │ │ │ │ │ └── pipeline_output.py │ │ │ │ ├── audio_diffusion/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── mel.py │ │ │ │ │ └── pipeline_audio_diffusion.py │ │ │ │ ├── latent_diffusion_uncond/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── pipeline_latent_diffusion_uncond.py │ │ │ │ ├── pndm/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── pipeline_pndm.py │ │ │ │ ├── repaint/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── pipeline_repaint.py │ │ │ │ ├── score_sde_ve/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── pipeline_score_sde_ve.py │ │ │ │ ├── spectrogram_diffusion/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── continuous_encoder.py │ │ │ │ │ ├── midi_utils.py │ │ │ │ │ ├── notes_encoder.py │ │ │ │ │ └── pipeline_spectrogram_diffusion.py │ │ │ │ ├── stable_diffusion_variants/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── pipeline_cycle_diffusion.py │ │ │ │ │ ├── pipeline_onnx_stable_diffusion_inpaint_legacy.py │ │ │ │ │ ├── pipeline_stable_diffusion_inpaint_legacy.py │ │ │ │ │ ├── pipeline_stable_diffusion_model_editing.py │ │ │ │ │ ├── pipeline_stable_diffusion_paradigms.py │ │ │ │ │ └── pipeline_stable_diffusion_pix2pix_zero.py │ │ │ │ ├── stochastic_karras_ve/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── pipeline_stochastic_karras_ve.py │ │ │ │ ├── versatile_diffusion/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── modeling_text_unet.py │ │ │ │ │ ├── pipeline_versatile_diffusion.py │ │ │ │ │ ├── pipeline_versatile_diffusion_dual_guided.py │ │ │ │ │ ├── pipeline_versatile_diffusion_image_variation.py │ │ │ │ │ └── pipeline_versatile_diffusion_text_to_image.py │ │ │ │ └── vq_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_vq_diffusion.py │ │ │ ├── dit/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_dit.py │ │ │ ├── free_init_utils.py │ │ │ ├── hunyuandit/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_hunyuandit.py │ │ │ ├── i2vgen_xl/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_i2vgen_xl.py │ │ │ ├── kandinsky/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_kandinsky.py │ │ │ │ ├── pipeline_kandinsky_combined.py │ │ │ │ ├── pipeline_kandinsky_img2img.py │ │ │ │ ├── pipeline_kandinsky_inpaint.py │ │ │ │ ├── pipeline_kandinsky_prior.py │ │ │ │ └── text_encoder.py │ │ │ ├── kandinsky2_2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_kandinsky2_2.py │ │ │ │ ├── pipeline_kandinsky2_2_combined.py │ │ │ │ ├── pipeline_kandinsky2_2_controlnet.py │ │ │ │ ├── pipeline_kandinsky2_2_controlnet_img2img.py │ │ │ │ ├── pipeline_kandinsky2_2_img2img.py │ │ │ │ ├── pipeline_kandinsky2_2_inpainting.py │ │ │ │ ├── pipeline_kandinsky2_2_prior.py │ │ │ │ └── pipeline_kandinsky2_2_prior_emb2emb.py │ │ │ ├── kandinsky3/ │ │ │ │ ├── __init__.py │ │ │ │ ├── convert_kandinsky3_unet.py │ │ │ │ ├── pipeline_kandinsky3.py │ │ │ │ └── pipeline_kandinsky3_img2img.py │ │ │ ├── latent_consistency_models/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_latent_consistency_img2img.py │ │ │ │ └── pipeline_latent_consistency_text2img.py │ │ │ ├── latent_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_latent_diffusion.py │ │ │ │ └── pipeline_latent_diffusion_superresolution.py │ │ │ ├── ledits_pp/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_leditspp_stable_diffusion.py │ │ │ │ ├── pipeline_leditspp_stable_diffusion_xl.py │ │ │ │ └── pipeline_output.py │ │ │ ├── marigold/ │ │ │ │ ├── __init__.py │ │ │ │ ├── marigold_image_processing.py │ │ │ │ ├── pipeline_marigold_depth.py │ │ │ │ └── pipeline_marigold_normals.py │ │ │ ├── musicldm/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_musicldm.py │ │ │ ├── onnx_utils.py │ │ │ ├── paint_by_example/ │ │ │ │ ├── __init__.py │ │ │ │ ├── image_encoder.py │ │ │ │ └── pipeline_paint_by_example.py │ │ │ ├── pia/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_pia.py │ │ │ ├── pipeline_flax_utils.py │ │ │ ├── pipeline_loading_utils.py │ │ │ ├── pipeline_utils.py │ │ │ ├── pixart_alpha/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_pixart_alpha.py │ │ │ │ └── pipeline_pixart_sigma.py │ │ │ ├── semantic_stable_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_output.py │ │ │ │ └── pipeline_semantic_stable_diffusion.py │ │ │ ├── shap_e/ │ │ │ │ ├── __init__.py │ │ │ │ ├── camera.py │ │ │ │ ├── pipeline_shap_e.py │ │ │ │ ├── pipeline_shap_e_img2img.py │ │ │ │ └── renderer.py │ │ │ ├── stable_cascade/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_stable_cascade.py │ │ │ │ ├── pipeline_stable_cascade_combined.py │ │ │ │ └── pipeline_stable_cascade_prior.py │ │ │ ├── stable_diffusion/ │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── clip_image_project_model.py │ │ │ │ ├── convert_from_ckpt.py │ │ │ │ ├── pipeline_flax_stable_diffusion.py │ │ │ │ ├── pipeline_flax_stable_diffusion_img2img.py │ │ │ │ ├── pipeline_flax_stable_diffusion_inpaint.py │ │ │ │ ├── pipeline_onnx_stable_diffusion.py │ │ │ │ ├── pipeline_onnx_stable_diffusion_img2img.py │ │ │ │ ├── pipeline_onnx_stable_diffusion_inpaint.py │ │ │ │ ├── pipeline_onnx_stable_diffusion_upscale.py │ │ │ │ ├── pipeline_output.py │ │ │ │ ├── pipeline_stable_diffusion.py │ │ │ │ ├── pipeline_stable_diffusion_depth2img.py │ │ │ │ ├── pipeline_stable_diffusion_image_variation.py │ │ │ │ ├── pipeline_stable_diffusion_img2img.py │ │ │ │ ├── pipeline_stable_diffusion_inpaint.py │ │ │ │ ├── pipeline_stable_diffusion_instruct_pix2pix.py │ │ │ │ ├── pipeline_stable_diffusion_latent_upscale.py │ │ │ │ ├── pipeline_stable_diffusion_upscale.py │ │ │ │ ├── pipeline_stable_unclip.py │ │ │ │ ├── pipeline_stable_unclip_img2img.py │ │ │ │ ├── safety_checker.py │ │ │ │ ├── safety_checker_flax.py │ │ │ │ └── stable_unclip_image_normalizer.py │ │ │ ├── stable_diffusion_3/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_output.py │ │ │ │ ├── pipeline_stable_diffusion_3.py │ │ │ │ ├── pipeline_stable_diffusion_3_img2img.py │ │ │ │ └── pipeline_stable_diffusion_3_instructpix2pix.py │ │ │ ├── stable_diffusion_attend_and_excite/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_stable_diffusion_attend_and_excite.py │ │ │ ├── stable_diffusion_diffedit/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_stable_diffusion_diffedit.py │ │ │ ├── stable_diffusion_gligen/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_stable_diffusion_gligen.py │ │ │ │ └── pipeline_stable_diffusion_gligen_text_image.py │ │ │ ├── stable_diffusion_k_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_stable_diffusion_k_diffusion.py │ │ │ │ └── pipeline_stable_diffusion_xl_k_diffusion.py │ │ │ ├── stable_diffusion_ldm3d/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_stable_diffusion_ldm3d.py │ │ │ ├── stable_diffusion_panorama/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_stable_diffusion_panorama.py │ │ │ ├── stable_diffusion_safe/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_output.py │ │ │ │ ├── pipeline_stable_diffusion_safe.py │ │ │ │ └── safety_checker.py │ │ │ ├── stable_diffusion_sag/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_stable_diffusion_sag.py │ │ │ ├── stable_diffusion_xl/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_flax_stable_diffusion_xl.py │ │ │ │ ├── pipeline_output.py │ │ │ │ ├── pipeline_stable_diffusion_xl.py │ │ │ │ ├── pipeline_stable_diffusion_xl_img2img.py │ │ │ │ ├── pipeline_stable_diffusion_xl_inpaint.py │ │ │ │ ├── pipeline_stable_diffusion_xl_instruct_pix2pix.py │ │ │ │ └── watermark.py │ │ │ ├── stable_video_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ └── pipeline_stable_video_diffusion.py │ │ │ ├── t2i_adapter/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_stable_diffusion_adapter.py │ │ │ │ └── pipeline_stable_diffusion_xl_adapter.py │ │ │ ├── text_to_video_synthesis/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_output.py │ │ │ │ ├── pipeline_text_to_video_synth.py │ │ │ │ ├── pipeline_text_to_video_synth_img2img.py │ │ │ │ ├── pipeline_text_to_video_zero.py │ │ │ │ └── pipeline_text_to_video_zero_sdxl.py │ │ │ ├── unclip/ │ │ │ │ ├── __init__.py │ │ │ │ ├── pipeline_unclip.py │ │ │ │ ├── pipeline_unclip_image_variation.py │ │ │ │ └── text_proj.py │ │ │ ├── unidiffuser/ │ │ │ │ ├── __init__.py │ │ │ │ ├── modeling_text_decoder.py │ │ │ │ ├── modeling_uvit.py │ │ │ │ └── pipeline_unidiffuser.py │ │ │ └── wuerstchen/ │ │ │ ├── __init__.py │ │ │ ├── modeling_paella_vq_model.py │ │ │ ├── modeling_wuerstchen_common.py │ │ │ ├── modeling_wuerstchen_diffnext.py │ │ │ ├── modeling_wuerstchen_prior.py │ │ │ ├── pipeline_wuerstchen.py │ │ │ ├── pipeline_wuerstchen_combined.py │ │ │ └── pipeline_wuerstchen_prior.py │ │ ├── py.typed │ │ ├── schedulers/ │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── deprecated/ │ │ │ │ ├── __init__.py │ │ │ │ ├── scheduling_karras_ve.py │ │ │ │ └── scheduling_sde_vp.py │ │ │ ├── scheduling_amused.py │ │ │ ├── scheduling_consistency_decoder.py │ │ │ ├── scheduling_consistency_models.py │ │ │ ├── scheduling_ddim.py │ │ │ ├── scheduling_ddim_flax.py │ │ │ ├── scheduling_ddim_inverse.py │ │ │ ├── scheduling_ddim_parallel.py │ │ │ ├── scheduling_ddpm.py │ │ │ ├── scheduling_ddpm_flax.py │ │ │ ├── scheduling_ddpm_parallel.py │ │ │ ├── scheduling_ddpm_wuerstchen.py │ │ │ ├── scheduling_deis_multistep.py │ │ │ ├── scheduling_dpmsolver_multistep.py │ │ │ ├── scheduling_dpmsolver_multistep_flax.py │ │ │ ├── scheduling_dpmsolver_multistep_inverse.py │ │ │ ├── scheduling_dpmsolver_sde.py │ │ │ ├── scheduling_dpmsolver_singlestep.py │ │ │ ├── scheduling_edm_dpmsolver_multistep.py │ │ │ ├── scheduling_edm_euler.py │ │ │ ├── scheduling_euler_ancestral_discrete.py │ │ │ ├── scheduling_euler_discrete.py │ │ │ ├── scheduling_euler_discrete_flax.py │ │ │ ├── scheduling_flow_match_euler_discrete.py │ │ │ ├── scheduling_heun_discrete.py │ │ │ ├── scheduling_ipndm.py │ │ │ ├── scheduling_k_dpm_2_ancestral_discrete.py │ │ │ ├── scheduling_k_dpm_2_discrete.py │ │ │ ├── scheduling_karras_ve_flax.py │ │ │ ├── scheduling_lcm.py │ │ │ ├── scheduling_lms_discrete.py │ │ │ ├── scheduling_lms_discrete_flax.py │ │ │ ├── scheduling_pndm.py │ │ │ ├── scheduling_pndm_flax.py │ │ │ ├── scheduling_repaint.py │ │ │ ├── scheduling_sasolver.py │ │ │ ├── scheduling_sde_ve.py │ │ │ ├── scheduling_sde_ve_flax.py │ │ │ ├── scheduling_tcd.py │ │ │ ├── scheduling_unclip.py │ │ │ ├── scheduling_unipc_multistep.py │ │ │ ├── scheduling_utils.py │ │ │ ├── scheduling_utils_flax.py │ │ │ └── scheduling_vq_diffusion.py │ │ ├── training_utils.py │ │ ├── utils/ │ │ │ ├── __init__.py │ │ │ ├── accelerate_utils.py │ │ │ ├── constants.py │ │ │ ├── deprecation_utils.py │ │ │ ├── doc_utils.py │ │ │ ├── dummy_flax_and_transformers_objects.py │ │ │ ├── dummy_flax_objects.py │ │ │ ├── dummy_note_seq_objects.py │ │ │ ├── dummy_onnx_objects.py │ │ │ ├── dummy_pt_objects.py │ │ │ ├── dummy_torch_and_librosa_objects.py │ │ │ ├── dummy_torch_and_scipy_objects.py │ │ │ ├── dummy_torch_and_torchsde_objects.py │ │ │ ├── dummy_torch_and_transformers_and_k_diffusion_objects.py │ │ │ ├── dummy_torch_and_transformers_and_onnx_objects.py │ │ │ ├── dummy_torch_and_transformers_objects.py │ │ │ ├── dummy_transformers_and_torch_and_note_seq_objects.py │ │ │ ├── dynamic_modules_utils.py │ │ │ ├── export_utils.py │ │ │ ├── hub_utils.py │ │ │ ├── import_utils.py │ │ │ ├── loading_utils.py │ │ │ ├── logging.py │ │ │ ├── model_card_template.md │ │ │ ├── outputs.py │ │ │ ├── peft_utils.py │ │ │ ├── pil_utils.py │ │ │ ├── state_dict_utils.py │ │ │ ├── testing_utils.py │ │ │ ├── torch_utils.py │ │ │ └── versions.py │ │ └── video_processor.py │ ├── subd_112030.err │ ├── subh_112029.err │ ├── tests/ │ │ ├── __init__.py │ │ ├── conftest.py │ │ ├── fixtures/ │ │ │ ├── custom_pipeline/ │ │ │ │ ├── pipeline.py │ │ │ │ └── what_ever.py │ │ │ └── elise_format0.mid │ │ ├── lora/ │ │ │ ├── test_lora_layers_sd.py │ │ │ ├── test_lora_layers_sd3.py │ │ │ ├── test_lora_layers_sdxl.py │ │ │ └── utils.py │ │ ├── models/ │ │ │ ├── __init__.py │ │ │ ├── autoencoders/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_models_vae.py │ │ │ │ ├── test_models_vae_flax.py │ │ │ │ └── test_models_vq.py │ │ │ ├── test_activations.py │ │ │ ├── test_attention_processor.py │ │ │ ├── test_layers_utils.py │ │ │ ├── test_modeling_common.py │ │ │ ├── test_modeling_common_flax.py │ │ │ ├── transformers/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_models_dit_transformer2d.py │ │ │ │ ├── test_models_pixart_transformer2d.py │ │ │ │ ├── test_models_prior.py │ │ │ │ └── test_models_transformer_sd3.py │ │ │ └── unets/ │ │ │ ├── __init__.py │ │ │ ├── test_models_unet_1d.py │ │ │ ├── test_models_unet_2d.py │ │ │ ├── test_models_unet_2d_condition.py │ │ │ ├── test_models_unet_2d_flax.py │ │ │ ├── test_models_unet_3d_condition.py │ │ │ ├── test_models_unet_controlnetxs.py │ │ │ ├── test_models_unet_motion.py │ │ │ ├── test_models_unet_spatiotemporal.py │ │ │ ├── test_unet_2d_blocks.py │ │ │ └── test_unet_blocks_common.py │ │ ├── others/ │ │ │ ├── test_check_copies.py │ │ │ ├── test_check_dummies.py │ │ │ ├── test_config.py │ │ │ ├── test_dependencies.py │ │ │ ├── test_ema.py │ │ │ ├── test_hub_utils.py │ │ │ ├── test_image_processor.py │ │ │ ├── test_outputs.py │ │ │ ├── test_training.py │ │ │ ├── test_utils.py │ │ │ └── test_video_processor.py │ │ ├── pipelines/ │ │ │ ├── __init__.py │ │ │ ├── amused/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_amused.py │ │ │ │ ├── test_amused_img2img.py │ │ │ │ └── test_amused_inpaint.py │ │ │ ├── animatediff/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_animatediff.py │ │ │ │ ├── test_animatediff_sdxl.py │ │ │ │ └── test_animatediff_video2video.py │ │ │ ├── audioldm/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_audioldm.py │ │ │ ├── audioldm2/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_audioldm2.py │ │ │ ├── blipdiffusion/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_blipdiffusion.py │ │ │ ├── consistency_models/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_consistency_models.py │ │ │ ├── controlnet/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_controlnet.py │ │ │ │ ├── test_controlnet_blip_diffusion.py │ │ │ │ ├── test_controlnet_img2img.py │ │ │ │ ├── test_controlnet_inpaint.py │ │ │ │ ├── test_controlnet_inpaint_sdxl.py │ │ │ │ ├── test_controlnet_sdxl.py │ │ │ │ ├── test_controlnet_sdxl_img2img.py │ │ │ │ └── test_flax_controlnet.py │ │ │ ├── controlnet_xs/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_controlnetxs.py │ │ │ │ └── test_controlnetxs_sdxl.py │ │ │ ├── dance_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_dance_diffusion.py │ │ │ ├── ddim/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_ddim.py │ │ │ ├── ddpm/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_ddpm.py │ │ │ ├── deepfloyd_if/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_if.py │ │ │ │ ├── test_if_img2img.py │ │ │ │ ├── test_if_img2img_superresolution.py │ │ │ │ ├── test_if_inpainting.py │ │ │ │ ├── test_if_inpainting_superresolution.py │ │ │ │ └── test_if_superresolution.py │ │ │ ├── dit/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_dit.py │ │ │ ├── hunyuan_dit/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_hunyuan_dit.py │ │ │ ├── i2vgen_xl/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_i2vgenxl.py │ │ │ ├── ip_adapters/ │ │ │ │ └── test_ip_adapter_stable_diffusion.py │ │ │ ├── kandinsky/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_kandinsky.py │ │ │ │ ├── test_kandinsky_combined.py │ │ │ │ ├── test_kandinsky_img2img.py │ │ │ │ ├── test_kandinsky_inpaint.py │ │ │ │ └── test_kandinsky_prior.py │ │ │ ├── kandinsky2_2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_kandinsky.py │ │ │ │ ├── test_kandinsky_combined.py │ │ │ │ ├── test_kandinsky_controlnet.py │ │ │ │ ├── test_kandinsky_controlnet_img2img.py │ │ │ │ ├── test_kandinsky_img2img.py │ │ │ │ ├── test_kandinsky_inpaint.py │ │ │ │ ├── test_kandinsky_prior.py │ │ │ │ └── test_kandinsky_prior_emb2emb.py │ │ │ ├── kandinsky3/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_kandinsky3.py │ │ │ │ └── test_kandinsky3_img2img.py │ │ │ ├── latent_consistency_models/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_latent_consistency_models.py │ │ │ │ └── test_latent_consistency_models_img2img.py │ │ │ ├── latent_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_latent_diffusion.py │ │ │ │ └── test_latent_diffusion_superresolution.py │ │ │ ├── ledits_pp/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_ledits_pp_stable_diffusion.py │ │ │ │ └── test_ledits_pp_stable_diffusion_xl.py │ │ │ ├── marigold/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_marigold_depth.py │ │ │ │ └── test_marigold_normals.py │ │ │ ├── musicldm/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_musicldm.py │ │ │ ├── paint_by_example/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_paint_by_example.py │ │ │ ├── pia/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_pia.py │ │ │ ├── pipeline_params.py │ │ │ ├── pixart_alpha/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_pixart.py │ │ │ ├── pixart_sigma/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_pixart.py │ │ │ ├── pndm/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_pndm.py │ │ │ ├── semantic_stable_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_semantic_diffusion.py │ │ │ ├── shap_e/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_shap_e.py │ │ │ │ └── test_shap_e_img2img.py │ │ │ ├── stable_cascade/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_stable_cascade_combined.py │ │ │ │ ├── test_stable_cascade_decoder.py │ │ │ │ └── test_stable_cascade_prior.py │ │ │ ├── stable_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_onnx_stable_diffusion.py │ │ │ │ ├── test_onnx_stable_diffusion_img2img.py │ │ │ │ ├── test_onnx_stable_diffusion_inpaint.py │ │ │ │ ├── test_onnx_stable_diffusion_upscale.py │ │ │ │ ├── test_stable_diffusion.py │ │ │ │ ├── test_stable_diffusion_img2img.py │ │ │ │ ├── test_stable_diffusion_inpaint.py │ │ │ │ └── test_stable_diffusion_instruction_pix2pix.py │ │ │ ├── stable_diffusion_2/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_stable_diffusion.py │ │ │ │ ├── test_stable_diffusion_attend_and_excite.py │ │ │ │ ├── test_stable_diffusion_depth.py │ │ │ │ ├── test_stable_diffusion_diffedit.py │ │ │ │ ├── test_stable_diffusion_flax.py │ │ │ │ ├── test_stable_diffusion_flax_inpaint.py │ │ │ │ ├── test_stable_diffusion_inpaint.py │ │ │ │ ├── test_stable_diffusion_latent_upscale.py │ │ │ │ ├── test_stable_diffusion_upscale.py │ │ │ │ └── test_stable_diffusion_v_pred.py │ │ │ ├── stable_diffusion_3/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_pipeline_stable_diffusion_3.py │ │ │ │ └── test_pipeline_stable_diffusion_3_img2img.py │ │ │ ├── stable_diffusion_adapter/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_diffusion_adapter.py │ │ │ ├── stable_diffusion_gligen/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_diffusion_gligen.py │ │ │ ├── stable_diffusion_gligen_text_image/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_diffusion_gligen_text_image.py │ │ │ ├── stable_diffusion_image_variation/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_diffusion_image_variation.py │ │ │ ├── stable_diffusion_k_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_diffusion_k_diffusion.py │ │ │ ├── stable_diffusion_ldm3d/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_diffusion_ldm3d.py │ │ │ ├── stable_diffusion_panorama/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_diffusion_panorama.py │ │ │ ├── stable_diffusion_safe/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_safe_diffusion.py │ │ │ ├── stable_diffusion_sag/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_diffusion_sag.py │ │ │ ├── stable_diffusion_xl/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_stable_diffusion_xl.py │ │ │ │ ├── test_stable_diffusion_xl_adapter.py │ │ │ │ ├── test_stable_diffusion_xl_img2img.py │ │ │ │ ├── test_stable_diffusion_xl_inpaint.py │ │ │ │ ├── test_stable_diffusion_xl_instruction_pix2pix.py │ │ │ │ └── test_stable_diffusion_xl_k_diffusion.py │ │ │ ├── stable_unclip/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_stable_unclip.py │ │ │ │ └── test_stable_unclip_img2img.py │ │ │ ├── stable_video_diffusion/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_stable_video_diffusion.py │ │ │ ├── test_pipeline_utils.py │ │ │ ├── test_pipelines.py │ │ │ ├── test_pipelines_auto.py │ │ │ ├── test_pipelines_combined.py │ │ │ ├── test_pipelines_common.py │ │ │ ├── test_pipelines_flax.py │ │ │ ├── test_pipelines_onnx_common.py │ │ │ ├── text_to_video_synthesis/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_text_to_video.py │ │ │ │ ├── test_text_to_video_zero.py │ │ │ │ ├── test_text_to_video_zero_sdxl.py │ │ │ │ └── test_video_to_video.py │ │ │ ├── unclip/ │ │ │ │ ├── __init__.py │ │ │ │ ├── test_unclip.py │ │ │ │ └── test_unclip_image_variation.py │ │ │ ├── unidiffuser/ │ │ │ │ ├── __init__.py │ │ │ │ └── test_unidiffuser.py │ │ │ └── wuerstchen/ │ │ │ ├── __init__.py │ │ │ ├── test_wuerstchen_combined.py │ │ │ ├── test_wuerstchen_decoder.py │ │ │ └── test_wuerstchen_prior.py │ │ ├── schedulers/ │ │ │ ├── __init__.py │ │ │ ├── test_scheduler_consistency_model.py │ │ │ ├── test_scheduler_ddim.py │ │ │ ├── test_scheduler_ddim_inverse.py │ │ │ ├── test_scheduler_ddim_parallel.py │ │ │ ├── test_scheduler_ddpm.py │ │ │ ├── test_scheduler_ddpm_parallel.py │ │ │ ├── test_scheduler_deis.py │ │ │ ├── test_scheduler_dpm_multi.py │ │ │ ├── test_scheduler_dpm_multi_inverse.py │ │ │ ├── test_scheduler_dpm_sde.py │ │ │ ├── test_scheduler_dpm_single.py │ │ │ ├── test_scheduler_edm_dpmsolver_multistep.py │ │ │ ├── test_scheduler_edm_euler.py │ │ │ ├── test_scheduler_euler.py │ │ │ ├── test_scheduler_euler_ancestral.py │ │ │ ├── test_scheduler_flax.py │ │ │ ├── test_scheduler_heun.py │ │ │ ├── test_scheduler_ipndm.py │ │ │ ├── test_scheduler_kdpm2_ancestral.py │ │ │ ├── test_scheduler_kdpm2_discrete.py │ │ │ ├── test_scheduler_lcm.py │ │ │ ├── test_scheduler_lms.py │ │ │ ├── test_scheduler_pndm.py │ │ │ ├── test_scheduler_sasolver.py │ │ │ ├── test_scheduler_score_sde_ve.py │ │ │ ├── test_scheduler_tcd.py │ │ │ ├── test_scheduler_unclip.py │ │ │ ├── test_scheduler_unipc.py │ │ │ ├── test_scheduler_vq_diffusion.py │ │ │ └── test_schedulers.py │ │ └── single_file/ │ │ ├── __init__.py │ │ ├── single_file_testing_utils.py │ │ ├── test_model_controlnet_single_file.py │ │ ├── test_model_sd_cascade_unet_single_file.py │ │ ├── test_model_vae_single_file.py │ │ ├── test_stable_diffusion_controlnet_img2img_single_file.py │ │ ├── test_stable_diffusion_controlnet_inpaint_single_file.py │ │ ├── test_stable_diffusion_controlnet_single_file.py │ │ ├── test_stable_diffusion_img2img_single_file.py │ │ ├── test_stable_diffusion_inpaint_single_file.py │ │ ├── test_stable_diffusion_single_file.py │ │ ├── test_stable_diffusion_upscale_single_file.py │ │ ├── test_stable_diffusion_xl_adapter_single_file.py │ │ ├── test_stable_diffusion_xl_controlnet_single_file.py │ │ ├── test_stable_diffusion_xl_img2img_single_file.py │ │ ├── test_stable_diffusion_xl_instruct_pix2pix.py │ │ └── test_stable_diffusion_xl_single_file.py │ └── utils/ │ ├── check_config_docstrings.py │ ├── check_copies.py │ ├── check_doc_toc.py │ ├── check_dummies.py │ ├── check_inits.py │ ├── check_repo.py │ ├── check_table.py │ ├── custom_init_isort.py │ ├── fetch_latest_release_branch.py │ ├── fetch_torch_cuda_pipeline_test_matrix.py │ ├── get_modified_files.py │ ├── notify_slack_about_release.py │ ├── overwrite_expected_slice.py │ ├── print_env.py │ ├── release.py │ ├── stale.py │ ├── tests_fetcher.py │ └── update_metadata.py ├── example.py ├── requirements.txt ├── scripts/ │ ├── run_sft_512_sd3_stage1.sh │ ├── run_sft_512_sdxl_stage1.sh │ ├── run_sft_512_sdxl_with_mask_stage2.sh │ └── run_sft_512_with_mask_sd3_stage2.sh └── traning/ ├── train_sd3_pix2pix.py └── train_sdxl_pix2pix.py