gitextract_la9ona01/ ├── .github/ │ └── workflows/ │ └── docker_build.yml ├── .gitignore ├── LICENSE ├── README.md ├── docs/ │ ├── Contribution_Guidelines.md │ ├── Prompt_Refiner.md │ ├── Report-v1.0.0-cn.md │ ├── Report-v1.0.0.md │ ├── Report-v1.1.0.md │ ├── Report-v1.2.0.md │ ├── Report-v1.3.0.md │ ├── Report-v1.5.0.md │ ├── Report-v1.5.0_cn.md │ └── VAE.md ├── examples/ │ ├── cond_pix_path.txt │ ├── cond_prompt.txt │ ├── rec_image.py │ ├── rec_video.py │ └── sora.txt ├── opensora/ │ ├── __init__.py │ ├── acceleration/ │ │ ├── __init__.py │ │ ├── communications.py │ │ └── parallel_states.py │ ├── adaptor/ │ │ ├── __init__.py │ │ ├── bf16_optimizer.py │ │ ├── engine.py │ │ ├── modules.py │ │ ├── stage_1_and_2.py │ │ ├── utils.py │ │ └── zp_manager.py │ ├── dataset/ │ │ ├── __init__.py │ │ ├── inpaint_dataset.py │ │ ├── t2v_datasets.py │ │ ├── transform.py │ │ └── virtual_disk.py │ ├── models/ │ │ ├── __init__.py │ │ ├── causalvideovae/ │ │ │ ├── __init__.py │ │ │ ├── dataset/ │ │ │ │ ├── __init__.py │ │ │ │ ├── ddp_sampler.py │ │ │ │ ├── transform.py │ │ │ │ └── video_dataset.py │ │ │ ├── eval/ │ │ │ │ ├── cal_fvd.py │ │ │ │ ├── cal_lpips.py │ │ │ │ ├── cal_psnr.py │ │ │ │ ├── cal_ssim.py │ │ │ │ ├── eval.py │ │ │ │ ├── fvd/ │ │ │ │ │ ├── styleganv/ │ │ │ │ │ │ └── fvd.py │ │ │ │ │ └── videogpt/ │ │ │ │ │ ├── fvd.py │ │ │ │ │ └── pytorch_i3d.py │ │ │ │ └── script/ │ │ │ │ ├── cal_clip_score.sh │ │ │ │ ├── cal_fvd.sh │ │ │ │ ├── cal_lpips.sh │ │ │ │ ├── cal_psnr.sh │ │ │ │ └── cal_ssim.sh │ │ │ ├── model/ │ │ │ │ ├── __init__.py │ │ │ │ ├── configuration_videobase.py │ │ │ │ ├── dataset_videobase.py │ │ │ │ ├── ema_model.py │ │ │ │ ├── losses/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── discriminator.py │ │ │ │ │ ├── lpips.py │ │ │ │ │ └── perceptual_loss.py │ │ │ │ ├── modeling_videobase.py │ │ │ │ ├── modules/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── attention.py │ │ │ │ │ ├── block.py │ │ │ │ │ ├── conv.py │ │ │ │ │ ├── normalize.py │ │ │ │ │ ├── ops.py │ │ │ │ │ ├── quant.py │ │ │ │ │ ├── resnet_block.py │ │ │ │ │ ├── updownsample.py │ │ │ │ │ └── wavelet.py │ │ │ │ ├── registry.py │ │ │ │ ├── trainer_videobase.py │ │ │ │ ├── utils/ │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── distrib_utils.py │ │ │ │ │ ├── module_utils.py │ │ │ │ │ ├── scheduler_utils.py │ │ │ │ │ ├── video_utils.py │ │ │ │ │ └── wavelet_utils.py │ │ │ │ └── vae/ │ │ │ │ ├── __init__.py │ │ │ │ ├── modeling_causalvae.py │ │ │ │ └── modeling_wfvae.py │ │ │ ├── sample/ │ │ │ │ └── rec_video_vae.py │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ ├── dataset_utils.py │ │ │ ├── downloader.py │ │ │ └── video_utils.py │ │ ├── diffusion/ │ │ │ ├── __init__.py │ │ │ ├── common.py │ │ │ └── opensora_v1_3/ │ │ │ ├── __init__.py │ │ │ ├── modeling_inpaint.py │ │ │ ├── modeling_opensora.py │ │ │ └── modules.py │ │ ├── frame_interpolation/ │ │ │ ├── cfgs/ │ │ │ │ └── AMT-G.yaml │ │ │ ├── interpolation.py │ │ │ ├── networks/ │ │ │ │ ├── AMT-G.py │ │ │ │ ├── __init__.py │ │ │ │ └── blocks/ │ │ │ │ ├── __init__.py │ │ │ │ ├── feat_enc.py │ │ │ │ ├── ifrnet.py │ │ │ │ ├── multi_flow.py │ │ │ │ └── raft.py │ │ │ ├── readme.md │ │ │ └── utils/ │ │ │ ├── __init__.py │ │ │ ├── build_utils.py │ │ │ ├── dist_utils.py │ │ │ ├── flow_utils.py │ │ │ └── utils.py │ │ ├── prompt_refiner/ │ │ │ ├── inference.py │ │ │ ├── merge.py │ │ │ └── train.py │ │ └── text_encoder/ │ │ ├── __init__.py │ │ ├── clip.py │ │ └── t5.py │ ├── npu_config.py │ ├── sample/ │ │ ├── caption_refiner.py │ │ ├── pipeline_inpaint.py │ │ ├── pipeline_opensora.py │ │ ├── rec_image.py │ │ ├── rec_video.py │ │ └── sample.py │ ├── serve/ │ │ ├── gradio_utils.py │ │ ├── gradio_web_server.py │ │ ├── gradio_web_server_i2v.py │ │ └── style.css │ ├── train/ │ │ ├── train_causalvae.py │ │ ├── train_inpaint.py │ │ └── train_t2v_diffusers.py │ └── utils/ │ ├── communications.py │ ├── dataset_utils.py │ ├── downloader.py │ ├── ema.py │ ├── ema_utils.py │ ├── freeinit_utils.py │ ├── lora_utils.py │ ├── mask_utils.py │ ├── parallel_states.py │ ├── sample_utils.py │ └── utils.py ├── pyproject.toml └── scripts/ ├── accelerate_configs/ │ ├── ddp_config.yaml │ ├── deepspeed_zero2_config.yaml │ ├── deepspeed_zero2_offload_config.yaml │ ├── deepspeed_zero3_config.yaml │ ├── deepspeed_zero3_offload_config.yaml │ ├── default_config.yaml │ ├── hostfile │ ├── zero2.json │ ├── zero2_npu.json │ ├── zero2_offload.json │ ├── zero3.json │ └── zero3_offload.json ├── causalvae/ │ ├── eval.sh │ ├── prepare_eval.sh │ ├── rec_image.sh │ ├── rec_video.sh │ ├── train.sh │ └── wfvae_4dim.json ├── slurm/ │ └── placeholder ├── text_condition/ │ ├── gpu/ │ │ ├── sample_inpaint_v1_3.sh │ │ ├── sample_t2v_v1_3.sh │ │ ├── train_inpaint_v1_3.sh │ │ └── train_t2v_v1_3.sh │ └── npu/ │ ├── sample_inpaint_v1_3.sh │ ├── sample_t2v_v1_3.sh │ ├── train_inpaint_v1_3.sh │ └── train_t2v_v1_3.sh ├── train_configs/ │ └── mask_config.yaml └── train_data/ └── merge_data.txt